# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Thariq (@trq212) · 平台：X (Twitter) · 日期：2026-04-11

> 原始來源：https://x.com/trq212/status/2043018747615887471

## 中文摘要

Claude Code 在二月更新後效能顯著退步，深度思考遭刪減導致工程任務品質下降。

使用者報告指出，Claude Code 在二月更新後，處理複雜工程任務的能力出現顯著退步，分析顯示這與「思考」內容被隱藏及深度下降有直接關聯。這份報告基於數千筆工作階段的日誌分析，揭露了模型行為從「先研究後修改」轉變為「直接修改」的負面趨勢，導致模型在執行複雜任務時表現不佳。

**工程效能顯著退步**
使用者 stellaraccident 於 GitHub 專案中指出，Claude Code 已無法勝任複雜的工程任務。具體表現包括：
- 忽略指令。
- 提出錯誤的「最簡修復方案」。
- 執行與要求相反的操作。
- 在未完成任務的情況下聲稱已完成。
該團隊透過分析 1 月至 3 月的日誌資料，發現自 2 月起，模型在複雜工程任務上的表現持續惡化，且所有公開的解決方案皆已嘗試，但問題依舊存在。

**「思考」內容隱藏與品質關聯**
透過分析 6,852 個 Claude Code 工作階段、17,871 個思考區塊及 234,760 次工具呼叫，研究發現「思考內容隱藏」(redact-thinking-2026-02-12) 的部署與品質下降精確吻合：
- **時間點吻合**：3 月 8 日，當隱藏的思考區塊比例超過 50% 時，品質退步問題被獨立回報。
- **分階段部署**：隱藏策略以 1.5% → 25% → 58% → 100% 的速度在一週內完成部署。
- **隱形退化**：早在 2 月底隱藏策略實施前，思考深度已下降約 67%，而隱藏策略讓這種退化變得難以察覺。

**工具使用模式的負面轉變**
資料顯示，模型從「研究優先」轉向「編輯優先」，導致精確度大幅下降：
- **研究減少**：模型在修改程式碼前的閱讀次數從每次編輯 6.6 次降至 2.0 次，研究力度減少了 70%。
- **粗糙修改**：模型傾向於重寫整個檔案而非進行精確的局部修改，這雖然速度較快，卻犧牲了精確度與上下文感知。
- **錯誤行為增加**：為了偵測模型逃避責任、過早停止或過度尋求許可的行為，團隊建立了一個停止監控腳本 (stop-phrase-guard.sh)。該腳本在 3 月 8 日後的 17 天內觸發了 173 次，而在此之前觸發次數為零。

**深度思考對工程工作流的必要性**
作者強調，擴展思考 (Extended Thinking) 並非「可有可無」的功能，而是模型執行複雜任務的結構性需求。它負責：
- 在行動前規劃多步驟方案。
- 記憶並應用專案特定的規範 (如 CLAUDE.md)。
- 在輸出前自我修正錯誤。
- 判斷何時該繼續工作或停止。
- 在數百次工具呼叫中維持推理的一致性。

**使用者對改善的期望**
針對上述問題，使用者建議 Anthropic 採取以下措施：
- 提高思考分配的透明度。
- 為進階使用者提供「最大思考」層級。
- 在 API 回應中提供思考 token 的相關指標。
- 監控來自進階使用者的 Canary 指標 (早期預警指標)。

針對此問題，Anthropic 官方回應表示，目前的調整主要是為了降低延遲而停止顯示思考摘要，但使用者仍可選擇啟用該功能。

## 標籤

Claude Code, CLI, Anthropic, Claude