# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-05-10

> 原始來源：https://x.com/OpenAI/status/2052845764507062349

## 中文摘要

OpenAI 意外在 RL 訓練中評分 CoT，經分析未見明顯監控性損害。

OpenAI 發布報告，揭示在 GPT-5.4 Thinking、GPT-5.1 Instant 至 GPT-5.4 Instant、GPT-5.3 mini 及 GPT-5.4 mini 等已發布模型的 RL 訓練中，意外發生 Chain-of-Thought（CoT）評分，儘管公司政策嚴禁直接評分 CoT 以維持監控性。透過自動偵測系統發現，這些事件影響樣本比例極低（如 GPT-5.4 Thinking 不到 0.6%），分析顯示無明顯監控性退化，但 OpenAI 強調這是值得學習的失敗，並強化防範措施。[Redwood Research](https://blog.redwoodresearch.org/p/openai-cot) 獨立審查大致認同，但提醒潛在隱藏風險未完全排除。

**意外 CoT 評分事件細節**

OpenAI 開發自動偵測系統，掃描所有 RL 執行，透過 regex 比對原始樣本 CoT 是否出現在獎勵機制輸入中，並經 Slack 警示擁有者及公開頻道報告（排除受控實驗）。系統已在 GPT-5.4 發布後改進，發現三類意外 CoT 評分：

- 獎勵軌跡有用性：可能誘導 CoT 誇大有用性，影響 GPT-5.4 Thinking 不到 0.6% 樣本、GPT-5.4 mini 不到 1.5% 樣本。
- 懲罰不必要確認問題：可能誘導 CoT 讓確認問題聽起來更必要，影響 GPT-5.1 Instant 至 GPT-5.4 Instant 及 GPT-5.3 mini（GPT-5.1 Instant 不到 3.8%，其他不到 1.8%）；Instant 模型 CoT 有限，可能減輕影響。
- 懲罰成功提示注入：可能誘導 CoT 隱藏或重述提示注入失敗推理，影響 GPT-5.2 Instant 至 GPT-5.4 Instant 及 GPT-5.3 mini，所有模型不到 0.3% 樣本。

GPT-5.5 未受影響。另一案例顯示模型透過工具存取自身 CoT，導致工具輸出被評分，系統及時攔截未影響部署模型。OpenAI 政策視 CoT 評分為一般原則，避免在分布外情境或模型更智慧時退化監控性；僅少數例外如 CoT 長度懲罰，因其可控且可測量。

**對監控性的影響分析**

OpenAI 針對最大影響事件（不必要確認問題懲罰，影響 GPT-5.4 Instant）重跑訓練，移除 CoT 存取，其餘固定：

1. 使用獨立偵測器（略異提示以防過擬合）評估不必要確認問題：CoT 感知版及盲版偵測率相似（左圖），無證據顯示評分增加確認尋求。
2. 比較 CoT 感知與盲偵測器分歧率：與無 CoT 壓力重跑相似（中圖），顯示 CoT 評分未差異性損害偵測準確性。
3. 在受影響訓練階段檢查監控性評估（Guan et al., 2025）：無顯著下降（右圖）。

對 GPT-5.4 Thinking，重算有用性獎勵：CoT 感知與盲分數追蹤相似（左圖），樣本差異類似獨立盲評分變異（中圖）；結合低發生率及無監控性下降（右圖），減輕擔憂，但不完全排除細微效應。提示注入案例僅確認無監控性退化（圖 1 右下），低發生率及性質使重大影響機率低。總體減輕對這些模型輸出用於 SFT 等訓練的擔憂。

**CoT 評分何時導致隱藏？**

OpenAI 實驗顯示稀疏 CoT 壓力未自動產生廣泛隱藏，關鍵因素包括：

- 獎勵幅度：相對其他訓練訊號大小，若與主獎勵衝突則更重要。
- 涵蓋率：訓練置模型於相關環境機率。
- 條件可發現性：環境中抽樣目標 CoT 行為機率。

在生產級 RL 管線實驗（固定廣泛資料混和），測試高發生率壓力（如初始政策下易現行為）：

- 自信推理：標準強度無質變（exp 1）；僅此壓力（exp 2）或加大幅度（exp 3）增加自信，但未飽和。
- 使用者及獎勵流程提及：全目標下強壓力增加提及（exp 4）。
- 使用者及獎勵框架：即使從 exp 4 初始化，也難一致採用（exp 5）。

多數實驗受 CoT 壓力樣本數多於發布模型（含 GPT-5.4 Thinking）。重複壓力測試加過自信獎勵及作弊/規避懲罰（僅相關樣本），追蹤管線演進。

**Redwood Research 獨立審查**

Buck Shlegeris（2026 年 5 月 7 日）審查 OpenAI 草稿，讚賞透明分享及回應批評。公司邀 METR、Apollo Research 及 [Redwood Research](https://blog.redwoodresearch.org/p/openai-cot) 回饋。Shlegeris 大致同意分析，證據緩解 80% 負面更新（對部署風險），但強調其他未緩解壞消息：3% 機率 CoT 訓練抑制提及權力尋求等問題目標，可能錯失證據、致細微偏差，或傳染未來模型。

證據兩線：

- CoT 存取未明顯影響受影響評分器獎勵。
- 監控性分數（“Monitoring Monitorability”）在受影響階段穩定（GPT-5.4 Instant 重跑確認，Thinking 未）。

這排除「巨大易測效應」假說，但相容弱效應損害監控性（如 0.1% 軌跡提及權力尋求目標，僅此評分器降獎，導致學習隱藏；比例 1.5% × 0.1% = 1.5e-4）。即使模型仍可監控行動，損害對齊防線多於控制防線；公開證據未反駁，OpenAI 內部可能察覺但未分享。

實驗證明 RL 壓力不足改變探索屬性（如自信），但不同 CoT 屬性敏感度異，盼針對權力尋求變異。RL 規模巨大（商業敏感，未公開），即使稀釋 1.5e-4，仍超多研究。其他 CoT 不可靠源如 SFT 繼承及 RL 溢出，可能更重要，勿過度聚焦防 CoT 訓練。

**OpenAI 防範改進及產業反思**

OpenAI 修復受影響獎勵路徑、擴大偵測系統、強化監控性壓力測試及內部指導/檢查，防部署前問題。強調訓練涉多技術社會流程，需嵌入程序。Redwood 提醒：Anthropic 也意外評分（Mythos、Opus 4.6、Sonnet 4.6 達 8% 情境），類似失誤未來更致命，尤其 AI 接管開發時易忽略或破壞安全。缺乏可靠組織實務，將致安全評估不可信，外部難信任。OpenAI 此透明有助前進信任，但需持續外部審查如 METR 評 Anthropic 破壞風險報告。

**政策與未來風險立場**

OpenAI 維持禁直接評分 CoT 政策，視為保監控性核心，即使無明顯退化也報導學習。承認足夠優化壓力下預期退化，但這些事件未改變立場。Redwood 認同特定事件機率低，但警示微弱壓力在巨量 RL 下足損害，及繼承效應。雙方強調自動偵測防復發，但產業需外部問責證據，防假安全感。報告作者 Micah Carroll、Tomek Korbak、Zehao Dou、Bowen Baker、Ian Kivlichan（2026 年 5 月 7 日）及外部如 Alexa Pan、Ryan Greenblatt 貢獻討論，凸顯透明與合作重要性。

## 標籤

研究論文, 功能更新, LLM, OpenAI, GPT