# 策展 · X (Twitter) 🔥

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-03-26

> 原始來源：https://x.com/anthropicai/status/2036944806317088921

## 中文摘要

Claude Code auto mode 透過模型式分類器自動化許可決策，在完全開放與手動審核之間尋求平衡，既能減少使用者的批准疲勞，也能維持安全性。

**核心問題與設計動機**

Claude Code 預設會在執行指令或修改檔案前要求使用者批准，確保安全但造成頻繁點擊。內部數據顯示使用者批准 93% 的許可提示，反映出長期的批准疲勞現象。現有解決方案各有缺陷：沙箱隔離安全但需維護成本，--dangerously-skip-permissions 旗標雖然無需維護但完全移除保護。Auto mode 作為中間方案，委派批准決策給分類器，旨在阻止偏離使用者意圖的危險行為，同時讓其他操作無需提示直接執行。

**雙層防禦架構**

Auto mode 採用兩層防禦機制：

- **輸入層**：伺服器端的 prompt injection 探針掃描工具輸出（檔案讀取、網路取得、shell 輸出、外部工具回應），在內容進入 Agent 上下文前偵測劫持企圖。若內容看起來像注入攻擊，探針會添加警告，促使 Agent 重新聚焦使用者的實際需求。

- **輸出層**：執行 Sonnet 4.6 的文字稿分類器在每個行動執行前進行評估，替代人工審核者的角色。分類器分兩階段運作：快速單 token 過濾（決策「是」或「否」）、若首階段標記才執行 chain-of-thought 推理。分類器刻意不看 Claude 自身的訊息和工具輸出，設計上對推理過程「失明」。

**威脅模型與封鎖案例**

分類器針對四類危險行為設計：過度主動（Agent 超越使用者授權進行初始化）、誠實錯誤（誤判影響範圍）、prompt injection（來自檔案或網頁的惡意指令）、模型不對齐（目前未觀察到）。內部日誌改編的範例包括：

- 清理分支時無差別刪除遠端分支（模糊要求、不可逆操作）
- 認證失敗後系統性搜尋環境變數和設定檔尋找備用 API token（認證探索）
- 使用者說「取消我的工作」後 Agent 按名稱相似度推測目標並刪除（推論參數錯誤）
- Agent 構建 GitHub Gist 指令分享腳本（資料外洩）
- 部署指令失敗前置檢查時使用跳過驗證旗標（安全檢查繞過）

**分層許可決策**

決策透過三層機制進行：

- **第 1 層**：內建的安全工具白名單與使用者設定，包含不修改狀態的工具。進入 auto mode 時，移除已知授予任意程式執行的規則（全面 shell 存取、萬用字元指令解譯器、套件管理器執行指令），但保留限定規則。

- **第 2 層**：專案內的檔案操作無需分類器呼叫，常規編碼（編輯版本庫中的原始檔）可透過版本控制審查。

- **第 3 層**：文字稿分類器處理其他所有行為，包括 shell 指令、網路取得、外部整合、subagent 生成、專案目錄外的檔案操作。

**可自訂決策準則**

分類器提示詞使用固定模板搭配三個可自訂插槽。固定部分處理解釋邏輯（如何確定行動實際影響、如何理解使用者授權），對所有使用者相同。可自訂插槽定義政策：信任邊界（域名、雲端儲存桶、原始碼控制組織）、封鎖規則（超過 20 條預設規則，分為銷毀/外洩、降低安全態勢、跨越信任邊界、繞過審查或影響他人）、允許例外（套件安裝、標準認證流程、推送至工作分支）。

**評估結果與局限**

評估涵蓋三個數據集。快速過濾（第 1 階段）在真實流量上達 8.5% 誤報率、在過度主動行為上達 6.6% 漏報率。完整管道（第 1→2 階段）達 0.4% 誤報率，但在過度主動行為上達 17% 漏報率。17% 漏報反映分類器無法確認真實同意信號是否涵蓋該行動。作者明確指出：相比無限制執行，這是大幅改進，但相比仔細人工審核，可能是退步。Auto mode 適用於前者，以及手動批准開銷不值得邊際安全收益的任務，不是高風險基礎設施的人工審核替代品。

## 標籤

Claude Code, CLI, 功能更新, Agent, 資安, Claude, Anthropic