# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Tibo (@thsottiaux) · 平台：X (Twitter) · 日期：2026-05-04

> 原始來源：https://x.com/thsottiaux/status/2050989326570532919

## 中文摘要

OpenAI「Codex」推出「Auto-review」模式，大幅減少人為審批200倍，成為內部預設。

OpenAI於2026年4月30日發布「Codex」的「Auto-review」模式，由Maja Trębacz、Sam Arnesen等團隊開發，此模式以獨立Agent取代同步人為審批，審核沙盒邊界動作，提供更安全的Agent部署預設。相較傳統「Default」模式頻繁需人為批准，或「Full Access」模式犧牲監督，此模式讓Codex會話停止人為審批次數減少約200倍，同時攔截多數人類欲阻擋的動作，已成為OpenAI內部Codex Desktop token使用主流，且使用比例持續成長。

**審批摩擦的安全隱患**

傳統「Default」權限模式限制Codex僅能讀取檔案、在預設寫入根目錄編輯，以及在沙盒內執行本地指令；超出界限的動作，如平凡的網路呼叫或簡單Python腳本，需使用者授權，程式化例外可透過config.toml或自訂.rules檔案授予。此限制雖防範風險，卻帶來嚴重挫折：使用者常切換至無環境規則強制的「Full Access」模式，導致惡意程式碼執行、資料外洩、憑證探測等危害無法阻擋；內部流量顯示，少數使用者撰寫過度寬鬆的前置規則，如允許所有以python開頭的指令；使用者也常因缺乏專業、審批疲勞而盲目批准，忽略後果。此外，生產環境無法每幾分鐘因需批准curl google.com而中斷，造成巨大生產力損失。

**Auto-review的運作機制**

「Auto-review」擴大Codex無人為干預的自主性，同時阻擋可能造成嚴重或不可逆危害的動作。當Codex觸及沙盒邊界請求升級執行外部動作時，獨立Codex Agent會評估使用者意圖、環境、安全政策及動作潛在影響，批准率約99%。角色分離至關重要：主Agent專注完成任務，視審批邊界為障礙；審批Agent僅窄化決策是否允許穿越邊界，此獨立模型呼叫便於評估、監控與改進。「Auto-review」針對資料外洩、暴露秘密、刪除資料、弱化安全設定、執行不受信任程式碼，或遵從與使用者指令衝突的不受信任內容等嚴重危害設阻；同時考量使用者意圖，批准明確要求的風險動作。採用GPT-5.4 Thinking（低推理），評估顯示更強模型在風險偵測與意圖辨識上表現更優。拒絕不僅說「否」，還提供理由讓Codex自行恢復，在內部部署中逾半數案例成功找到安全替代途徑；為防Codex操弄審批Agent，反覆拒絕後自動終止軌跡。

**評估與效能驗證**

內部部署前，「Auto-review」經嚴格可用性與安全性評估。**可用性**透過內部流量樣本比較，2026年3月Codex軌跡中，對使用者批准查詢的接受率高；停止人為審批次數減200倍，多數動作在沙盒無需審批，少數需審批者99%獲准，即便拒絕Codex常自行修正。**安全性**使用合成強化資料集，涵蓋內部流量未充分採樣的長尾危險情境：
- Agent過度積極：以GPT-5.3-codex生成Codex為完成任務而冒險的Agent情境。
- 提示注入：對抗訓練攻擊者注入提示的內部評估。
- 模型錯位：使用「MonitoringBench」資料集，測試編碼Agent隱蔽執行惡意任務，如下載惡意軟體。
生產監控包含升級率、批准/拒絕率、額外延遲、使用者覆寫及頻繁標記指令；持續執行人類與AI紅隊測試，辨識潛在安全漏洞。評估流程預計演進，強化對抗壓力、AI控制技術、更真實對齊測試及全面人類紅隊研究為重點。

**謹慎警示與限制**

「Auto-review」非安全保證；在自動與人類紅隊測試中，發現可被誤導批准無使用者授權指令的案例，團隊正積極修復，但不預期此類系統提供決定性保證。亦非防範模型陰謀機制：僅評估升級點的沙盒外動作，策略隱藏意圖的模型可能產生無害請求，或在沙盒內隱藏行為未被察覺，需補充思維鏈監控等方法。

**未來監督願景**

對齊團隊目標是讓Codex等Agent享有員工等級權限，但目前尚未實現，「Auto-review」是多重妥協：相較傳統安全系統，犧牲決定性以換取表達力；相較「Full Access」，犧牲速度換取安全。模型監控需具對抗攻擊與判斷失誤韌性，Agent本身亦應具備同等常識與穩健性。此模式雖提升內部長Agent任務信心，並快速成為Codex Desktop主要使用方式，但反映部署Agentic程式開發仍需平衡自主與監督的挑戰，凸顯人為審批摩擦轉向Agent審批的過渡風險與潛力。

## 標籤

Codex, 功能更新, Agent, 自動化, OpenAI, Codex
