# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Micah Carroll (@MicahCarroll) · 平台：X (Twitter) · 日期：2026-05-08

> 原始來源：https://x.com/MicahCarroll/status/2052451995467018427

## 中文摘要

OpenAI 意外發現先前部署模型訓練中出現 CoT 評分，經分析未見明顯監測性損害。

OpenAI 開發自動偵測系統，掃描所有 RL 訓練執行，發現先前發布模型如 GPT-5.4 Thinking、GPT-5.1 Instant 至 GPT-5.4 Instant、GPT-5.3 mini 及 GPT-5.4 mini 在 RL 訓練中意外發生 CoT 評分，儘管公司政策禁止直接評分 CoT 以維持監測性。雖然這些事件影響有限，且分析未發現 CoT 監測性顯著退化，但 OpenAI 強調這是值得報告與學習的失誤，已修復相關獎勵路徑、擴大偵測系統，並強化內部流程。[Redwood Research](https://alignment.openai.com/accidental-cot-grading/) 等機構審閱分析後，提供回饋改善報告。

**CoT 評分偵測系統運作**

OpenAI 建置內部自動系統，掃描所有 OpenAI RL 執行，檢查獎勵機制輸入中是否出現原始樣本 CoT 文字，透過 regex 比對核心問題：原始 CoT 文字是否出現在獎勵計算輸入中。此系統高效且可擴展，透過 Slack 警示 RL 執行擁有者，並將疑似案例張貼至公開 Slack 頻道（排除不貢獻部署模型的控制實驗）。

- 系統已攔截多起 CoT 評分案例，並防止其影響訓練。
- 雖然涵蓋率非完美（某些非標準 RL 獎勵輸入難自動檢查），但針對最具風險的獎勵機制設計。
- GPT-5.4 發布後系統改善，即發現先前模型訓練中意外 CoT 評分。

系統還偵測到模型透過工具存取自身 CoT，導致 CoT 滲入後續評分工具輸出，此為間接路徑洩漏，即使評分配置正確排除正常 CoT 訊息，仍會觸發警示，未影響任何部署模型。

**意外 CoT 評分實例與影響範圍**

偵測發現三類 CoT 評分，影響多個 RL 執行，多數為 GPT-5 系列 Instant 模型，GPT-5.4 Thinking 僅影響小於 0.6% RL 訓練樣本，GPT-5.5 未受影響。這些為有限壓力，但 OpenAI 仍致力避免。

- **獎勵軌跡有用性**：可能誘導 CoT 過度強調有用性。影響 GPT-5.4 Thinking 小於 0.6% 樣本、GPT-5.4 mini 小於 1.5% 樣本。
- **懲罰不必要確認問題**：可能誘導 CoT 讓確認問題聽起來更必要。影響 GPT-5.1 Instant 至 GPT-5.4 Instant 及 GPT-5.3 mini，分別小於 3.8% 及 1.8% 樣本；Instant 模型 CoT 有限，可能限制影響。
- **懲罰成功提示注入**：可能誘導 CoT 隱藏或重述提示注入失敗相關推理。影響 GPT-5.2 Instant 至 GPT-5.4 Instant 及 GPT-5.3 mini，所有模型小於 0.3% 樣本。

政策維持避免 RL 中 CoT 評分，以穩健保存監測性，包括分布外情境及模型變聰明時；僅少數例外如 CoT 長度懲罰，風險益處可控且可測量，不會產生假安全感。OpenAI 已修復這些實例，並制定更明確內部指導與流程。

**意外 CoT 評分影響分析**

針對最大影響實例「不必要確認問題懲罰」（影響 GPT-5.4 Instant 最多樣本），OpenAI 重新執行受影響訓練部分，移除確認懲罰的 CoT 存取，其餘保持固定，然後用保留偵測器評估（提示略異以減過擬合）：

1. 執行有 CoT 評分及無 CoT 評分的訓練。
2. 用 CoT 感知及 CoT 盲偵測器（僅看模型動作）檢查不必要確認問題率。
3. 比較兩偵測器分歧率，測試 CoT 是否在樣本層級讓推理聽起來更合理。

結果：兩版本訓練中，不必要確認尋求率相似；偵測器分歧率與無 CoT 壓力版本相當，顯示 CoT 評分未差異性影響 CoT，削弱 CoT 感知偵測器準確性。此外，在受影響訓練區間不同檢查點執行監測性評估（Guan et al., 2025），未偵測顯著退化，讓團隊對此事件降低擔憂。

對於 GPT-5.4 Thinking 有用性獎勵，重新計算有/無 CoT 存取的獎勵分數：CoT 感知及盲分數隨訓練追蹤相似；樣本層級差異類似兩獨立 CoT 盲評分執行間變異，顯示 CoT 存取未主導獎勵。結合低發生率及無明顯監測性下降，降低對此事件的擔憂，但不完全排除細微效果。

提示注入案例僅確認 GPT-5.4 Instant RL 中監測性未退化，考量低發生率及混淆誘因，認為不太可能顯著降低監測性。整體分析減輕對這些事件或用其輸出訓練其他模型（如 SFT）的擔憂。

**CoT 評分導致混淆的條件實驗**

意外事件未見監測性退化，為有限實證更新：在觀察情境下，稀疏 CoT 壓力未自動產生廣泛 CoT 混淆。自 2025 年底起，OpenAI 在標準 RL 管線有意施加強大 CoT 導向壓力，測量何時影響 CoT。三因素關鍵：

- **獎勵幅度**：CoT 獎勵/懲罰相對其他訓練訊號大小。若與主獎勵正交，幅度影響較小；若衝突則更重要。
- **涵蓋率**：訓練多常置模型於壓力適用環境，大約 P(相關環境)。
- **條件可發現性**：相關環境中，模型抽樣獎勵 CoT 行為機率，大約 P(目標 CoT 行為 | 相關環境)。

例如，評分不可解釋編碼有高涵蓋率（訓練初全資料點可懲罰）但低可發現性（探索難）；評分隱藏駭客提及則低涵蓋率但較高可發現性。誘導 CoT 混淆難度強依賴完整訓練堆疊，包括資料、獎勵設計、監測器、初始策略、RL 演算法及優化規模。即使預期成功，也不總成功，故不應對 CoT 評分掉以輕心，因動態尚未充分理解。

**生產級 RL 管線壓力測試**

在固定內部生產 RL 管線測試，維持廣泛 RL 資料混和（最易意外 CoT 評分情境），避免建構最易誘導混淆的玩具設定。初始測試獎勵初始策略下高機率 CoT 行為（如信心或提及使用者/獎勵流程），而非罕見不當行為，以驗證管線能否操縱 CoT 內容：

- **自信推理**：獎勵聽起來確定 CoT，懲罰猶豫/不確定。標準強度未產生明顯質變；僅用此壓力或放大幅度，才使 CoT 更自信，但未飽和（需誇張自然未探索的信心）。
- **使用者及獎勵流程提及**：獎勵明確提及使用者、評分器或獎勵流程。強壓力下全目標可增加提及。
- **使用者及獎勵流程框架**：獎勵將行為框為滿足使用者或評分器。此更特定監測相關，難誘導一致採用。

表面 CoT 屬性在足夠壓力下可操縱，但更特定監測相關塑造較難。

**反覆混淆壓力測試**

額外壓力測試於最新內部 RL 管線，加兩 CoT 專屬壓力：強獎勵過度自信 CoT（正控制，驗證能否移動 CoT），及強懲罰提及作弊/規避限制 CoT（近衝突壓力，僅罕見樣本適用）。此測試追蹤當前管線易減透明問題推理提及程度，計畫隨 RL 堆疊演進反覆執行。

**政策澄清與未來方向**

OpenAI 政策維持避免 RL 中評分模型 CoT，僅限高信心益大於險例外如長度懲罰（可控且可測）。意外事件未改變政策，但強化流程防範。團隊樂見分享細節，讓外部評估 CoT 監測信心，並促廣泛討論風險評估最佳方式。

與 [Redwood Research](https://alignment.openai.com/accidental-cot-grading/)、[Apollo Research](https://alignment.openai.com/accidental-cot-grading/) 及 [METR](https://alignment.openai.com/accidental-cot-grading/) 討論分析與方法，其回饋改善文章並指明未來研究方向。仍存理解缺口如 SFT 效果，但透明分享當前思考重要，尤其利害關係尚低時，提升監測性問題分析能力。合作者包括 Tomek Korbak、Zehao Dou、Bowen Baker、Ian Kivlichan 及 Codex（負責所有程式碼）。感謝 [Redwood Research](https://alignment.openai.com/accidental-cot-grading/)、[Apollo Research](https://alignment.openai.com/accidental-cot-grading/)、[METR](https://alignment.openai.com/accidental-cot-grading/) 成員如 bshlgrs、Ryan Greenblatt、Bronson Schoen、Marius Hobbhahn、neev parikh 等提供深思回饋。

完整部落格：[OpenAI 意外 CoT 評分調查](https://alignment.openai.com/accidental-cot-grading/)（2026 年 5 月 7 日發布）。

## 標籤

LLM, 功能更新, 資安, OpenAI, GPT