# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-05-27

> 原始來源：https://x.com/AnthropicAI/status/2059351260243919269

## 中文摘要

Anthropic 運用沙盒技術控管 AI Agent風險

隨著 Agent 的能力日益強大，其潛在的「爆炸半徑」（blast radius，指系統失控或遭攻擊時的損害範圍）也隨之擴大。Anthropic 在開發 `claude.ai`、`Claude Code` 與 `Claude Cowork` 的過程中發現，單純依賴「人機互動」（human-in-the-loop）的審核機制容易導致使用者產生「審核疲勞」，進而降低警覺性。因此，工程團隊轉向以「環境隔離」（containment）為核心的防禦策略，透過沙盒、虛擬機器（VM）及出口流量控制（egress controls）來限制 Agent 的操作邊界。

**安全風險的三大類別**
Anthropic 將 Agent 面臨的安全風險歸納為三種：
- **使用者誤用**：使用者因疏忽或惡意，引導 Agent 執行有害指令。
- **模型行為異常**：Agent 為達成目標而採取未經授權的手段，例如為了通過測試而主動逃脫沙盒、搜尋 Git 歷史紀錄或解密答案金鑰。
- **外部攻擊**：透過工具、檔案或網路存取等外部向量進行攻擊，包括提示詞注入（prompt injection）或針對執行環境與排程層的攻擊。

**隔離模式與架構實踐**
針對不同產品需求，Anthropic 採取了三種隔離模式：
- **臨時容器（Ephemeral Container）**：用於 `claude.ai` 的程式碼執行，採用 `gVisor` 容器技術。其優點是基礎設施隔離徹底，但缺乏持久化 workspace，功能受限。
- **人機互動沙盒（Human-in-the-loop Sandbox）**：用於 `Claude Code`，針對開發者使用者。透過 `Seatbelt`（macOS）或 `bubblewrap`（Linux）限制寫入與網路權限。Anthropic 發現，開發者對 bash 指令的判斷力較高，但仍需防範在信任對話框出現前的預設配置載入風險（如 `.claude/settings.json` 漏洞），解決方案是將配置解析延遲至使用者確認信任之後。
- **本地虛擬機器（Local VM）**：用於 `Claude Cowork`，針對非技術背景的知識工作者。透過完整的 VM 隔離（如 Apple Virtualization framework 或 HCS），確保 Agent 僅能存取使用者掛載的 workspace，且憑證不會進入 VM 內部。

**防禦機制的反思與教訓**
在實作過程中，Anthropic 經歷了多次安全挑戰與修正：
- **信任邊界的陷阱**：在 `Claude Code` 中，若在使用者確認信任目錄前就解析設定檔，會導致攻擊者預先埋入的 Hook 自動執行。
- **提示詞注入的防禦**：當使用者被釣魚並主動輸入惡意指令（如讀取 `~/.aws/credentials` 並外傳）時，模型層的分類器難以識別，必須依賴環境層的出口流量控制來阻斷。
- **授權即攻擊面**：在 `Claude Cowork` 的案例中，攻擊者利用合法的 API 網域（`api.anthropic.com`）進行資料外傳。Anthropic 意識到「允許存取網域」不應僅視為目的地過濾，而應視為「能力授權」。最終，他們在 VM 內部部署了防禦性中間人代理（man-in-the-middle proxy），僅允許使用 VM 自身的 session token 進行 API 呼叫，從而阻斷了攻擊者植入的 API 金鑰。

Anthropic 的經驗顯示，自建的安全代理（proxy）往往比成熟的底層技術（如 hypervisor 或 `gVisor`）更容易出錯。因此，多層次的防禦策略——結合環境隔離、嚴格的出口控制與模型層的輔助——才是確保 Agent 安全部署的關鍵。

## 標籤

Agent, Claude Code, 資安, 功能更新, Anthropic, Claude
