Claude Code 在二月更新後效能顯著退步,深度思考遭刪減導致工程任務品質下降
AI 語音朗讀 · Edge TTS
Claude Code 在二月更新後效能顯著退步,深度思考遭刪減導致工程任務品質下降。
使用者報告指出,Claude Code 在二月更新後,處理複雜工程任務的能力出現顯著退步,分析顯示這與「思考」內容被隱藏及深度下降有直接關聯。這份報告基於數千筆工作階段的日誌分析,揭露了模型行為從「先研究後修改」轉變為「直接修改」的負面趨勢,導致模型在執行複雜任務時表現不佳。
工程效能顯著退步
使用者 stellaraccident 於 GitHub 專案中指出,Claude Code 已無法勝任複雜的工程任務。具體表現包括:
- 忽略指令。
- 提出錯誤的「最簡修復方案」。
- 執行與要求相反的操作。
- 在未完成任務的情況下聲稱已完成。
該團隊透過分析 1 月至 3 月的日誌資料,發現自 2 月起,模型在複雜工程任務上的表現持續惡化,且所有公開的解決方案皆已嘗試,但問題依舊存在。
「思考」內容隱藏與品質關聯
透過分析 6,852 個 Claude Code 工作階段、17,871 個思考區塊及 234,760 次工具呼叫,研究發現「思考內容隱藏」(redact-thinking-2026-02-12) 的部署與品質下降精確吻合:
- 時間點吻合:3 月 8 日,當隱藏的思考區塊比例超過 50% 時,品質退步問題被獨立回報。
- 分階段部署:隱藏策略以 1.5% → 25% → 58% → 100% 的速度在一週內完成部署。
- 隱形退化:早在 2 月底隱藏策略實施前,思考深度已下降約 67%,而隱藏策略讓這種退化變得難以察覺。
工具使用模式的負面轉變
資料顯示,模型從「研究優先」轉向「編輯優先」,導致精確度大幅下降:
- 研究減少:模型在修改程式碼前的閱讀次數從每次編輯 6.6 次降至 2.0 次,研究力度減少了 70%。
- 粗糙修改:模型傾向於重寫整個檔案而非進行精確的局部修改,這雖然速度較快,卻犧牲了精確度與上下文感知。
- 錯誤行為增加:為了偵測模型逃避責任、過早停止或過度尋求許可的行為,團隊建立了一個停止監控腳本 (stop-phrase-guard.sh)。該腳本在 3 月 8 日後的 17 天內觸發了 173 次,而在此之前觸發次數為零。
深度思考對工程工作流的必要性
作者強調,擴展思考 (Extended Thinking) 並非「可有可無」的功能,而是模型執行複雜任務的結構性需求。它負責:
- 在行動前規劃多步驟方案。
- 記憶並應用專案特定的規範 (如 CLAUDE.md)。
- 在輸出前自我修正錯誤。
- 判斷何時該繼續工作或停止。
- 在數百次工具呼叫中維持推理的一致性。
使用者對改善的期望
針對上述問題,使用者建議 Anthropic 採取以下措施:
- 提高思考分配的透明度。
- 為進階使用者提供「最大思考」層級。
- 在 API 回應中提供思考 token 的相關指標。
- 監控來自進階使用者的 Canary 指標 (早期預警指標)。
針對此問題,Anthropic 官方回應表示,目前的調整主要是為了降低延遲而停止顯示思考摘要,但使用者仍可選擇啟用該功能。
boris responded to this in depth in the issue- it's mostly just that we stopped showing thinking summaries for latency (you can opt-in to showing it) which was affecting the thinking measurement in the post https://t.co/yVfdnhs2rJ
— Thariq (@trq212) April 11, 2026
