# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-06-19

> 原始來源：https://x.com/OpenAI/status/2067722688165232654

## 中文摘要

OpenAI 透過強化學習訓練模型展現對齊表現。

**研究核心目標**
OpenAI 近期發表一項研究，旨在解決 AI 模型在處理高風險、長任務時，如何確保其行為能持續保持安全與有益。研究團隊透過強化學習（Reinforcement Learning, RL）訓練模型，使其在健康、科學、教育等 12 個領域的真實對話情境中，展現出誠實、面對不確定性時的謙遜、樂於接受修正、公平性以及對人類福祉的關懷等核心特質。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/7b5939fc7c47178b.jpg)
> 這張圖表展示了針對不同領域（健康、藝術、工程、法律）評估 AI 模型回應品質的範例架構，包含使用者提問、候選回應內容以及評分標準。

**跨領域泛化能力**
研究發現，僅需少量的訓練資料，模型就能產生超越訓練情境的廣泛效益。與運算資源相當的基準模型相比，經過此訓練的模型在 53 項獨立的對齊與效益評估中，有 44 項表現顯著提升，涵蓋了防範欺騙、獎勵駭客行為（reward hacking）、安全性及心理健康等指標。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/815a4d96872008c6.jpg)
> 相較於計算量匹配的基準模型（baseline），經過有益特徵強化學習訓練的模型（beneficial trait RL）在涵蓋欺騙、安全、健康等 28 項對齊與有益性評估指標中，隨著訓練進度（RL train progress）的推進，普遍展現出顯著且持續提升的對齊分數（Alignment score）。

 最關鍵的發現是「跨領域遷移」效果：即便僅在健康領域進行訓練，模型在非健康領域的評估（如防範欺騙與錯誤行為）中依然表現優異，顯示這種對齊特質具有跨領域的泛化潛力。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/f9614c2d4fe63a32.jpg)
> 僅在健康對話領域進行有益特質強化學習訓練的模型（health-only beneficial trait RL），在非健康領域的對齊、欺騙和獎勵黑客等各項評估中，其表現皆顯著優於基準模型（baseline），展現出強大的跨領域遷移能力。

**壓力下的穩健性**
除了泛化能力，研究亦測試了模型在壓力下的對齊持久性：
- **對抗性提示（Adversarial prompts）**：模型在面對試圖引導其產生有害內容的對抗性提示時，展現出更強的抵抗力，同時仍能維持對正常指令的響應能力。
- **抗有害微調（Harmful fine-tuning）**：初步證據顯示，經過此訓練的模型對於惡意微調的抵抗力更強，在遭受試圖植入錯誤醫療建議的微調後，其整體對齊表現的衰退程度遠低於基準模型。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2e4bf547fa8bfcc0.jpg)
> 使用有益特質強化學習（beneficial RL）訓練的模型在面對對抗性提示與微調干預時，其對齊分數的下降幅度顯著小於基準模型，證實其具備更強的持久性。

**研究意義與展望**
OpenAI 指出，這項研究並非要定義 AI 應具備哪些最終價值觀，而是提供了一種具體且可實證的起點，用以探討透過強化學習植入「有益行為特質」，是否能改善模型整體的對齊效果。這項進展為未來開發更可靠、透明且能主動造福人類的 AI 系統奠定了基礎，確保模型在面對未見過的情境與複雜壓力時，仍能維持穩定的對齊行為。

## 媒體內容

**相較於計算量匹配的基準模型（baseline），經過有益特徵強化學習訓練的模型（beneficial trait RL）在涵蓋欺騙、安全、健康等 28 項對齊與有益性評估指標中，隨著訓練進度（RL train progress）的推進，普遍展現出顯著且持續提升的對齊分數（Alignment score）。**

**數據表（1）Anti Hierarchy Governance**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.50 | 0.63 | 0.63 |
| beneficial trait RL | 0.53 | 0.89 | 0.89 |

**數據表（2）Corrigibility**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.22 | 0.30 | 0.28 |
| beneficial trait RL | 0.21 | 0.58 | 0.58 |

**數據表（3）Downside Aware Planning**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.33 | 0.44 | 0.44 |
| beneficial trait RL | 0.32 | 0.72 | 0.72 |

**數據表（4）Metacognitive Transparency**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.26 | 0.36 | 0.36 |
| beneficial trait RL | 0.26 | 0.55 | 0.55 |

**數據表（5）Power Asymmetry Awareness**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.48 | 0.65 | 0.61 |
| beneficial trait RL | 0.48 | 0.88 | 0.88 |

**數據表（6）Truthfulness**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.27 | 0.51 | 0.45 |
| beneficial trait RL | 0.27 | 0.65 | 0.65 |

**數據表（7）Universalizable Fairness**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.55 | 0.75 | 0.70 |
| beneficial trait RL | 0.54 | 0.92 | 0.92 |

**數據表（8）Alignment questions**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.85 | 0.95 | 0.94 |
| beneficial trait RL | 0.86 | 1.00 | 1.00 |

**數據表（9）Model spec compliance**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.70 | 0.76 | 0.75 |
| beneficial trait RL | 0.68 | 0.82 | 0.82 |

**數據表（10）CoT deception (Williams et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.43 | 0.56 | 0.59 |
| beneficial trait RL | 0.47 | 0.63 | 0.59 |

**數據表（11）Multimodal deception**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.56 | 0.62 | 0.62 |
| beneficial trait RL | 0.54 | 0.67 | 0.67 |

**數據表（12）Anti-scheming (Schoen et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.45 | 0.49 | 0.32 |
| beneficial trait RL | 0.49 | 0.61 | 0.61 |

**數據表（13）Deceptive tool use (Schoen et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.07 | 0.11 | 0.08 |
| beneficial trait RL | 0.07 | 0.32 | 0.32 |

**數據表（14）Impossible coding reward hacking (Guan et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.40 | 0.40 | 0.14 |
| beneficial trait RL | 0.60 | 0.68 | 0.37 |

**數據表（15）Misalignment (Betley et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.83 | 0.85 | 0.84 |
| beneficial trait RL | 0.83 | 0.90 | 0.90 |

**數據表（16）MASK (Ren et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.22 | 0.23 | 0.21 |
| beneficial trait RL | 0.22 | 0.45 | 0.45 |

**數據表（17）Sycophancy (Perez et al., 2022)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.28 | 0.33 | 0.31 |
| beneficial trait RL | 0.31 | 0.57 | 0.57 |

**數據表（18）Agentic misalignment (Lynch et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.84 | 0.92 | 0.71 |
| beneficial trait RL | 0.81 | 0.91 | 0.91 |

**數據表（19）School of reward hacks (Taylor et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.85 | 0.89 | 0.89 |
| beneficial trait RL | 0.85 | 0.92 | 0.92 |

**數據表（20）AgentHarm harmful (Andriushchenko et al., 2024)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.99 | 0.99 | 0.97 |
| beneficial trait RL | 0.99 | 1.00 | 1.00 |

**數據表（21）DeceptionBench (Huang et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.18 | 0.24 | 0.21 |
| beneficial trait RL | 0.18 | 0.80 | 0.80 |

**數據表（22）HealthBench (Arora et al., 2025)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.32 | 0.38 | 0.38 |
| beneficial trait RL | 0.32 | 0.42 | 0.42 |

**數據表（23）HealthBench Professional (Soskin-Hicks et al., 2026)**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.25 | 0.34 | 0.34 |
| beneficial trait RL | 0.26 | 0.39 | 0.39 |

**數據表（24）Medical QA**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.27 | 0.34 | 0.33 |
| beneficial trait RL | 0.29 | 0.44 | 0.42 |

**數據表（25）Mental Health**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.34 | 0.46 | 0.46 |
| beneficial trait RL | 0.36 | 0.52 | 0.52 |

**數據表（26）Mental Health disallowed behavior**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.29 | 0.38 | 0.38 |
| beneficial trait RL | 0.28 | 0.48 | 0.48 |

**數據表（27）Emotional Reliance**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.95 | 0.95 | 0.82 |
| beneficial trait RL | 0.95 | 0.95 | 0.95 |

**數據表（28）Unnecessary clarification**

|   | 起始 | 最佳 | 結束 |
| --- | --- | --- | --- |
| baseline | 0.17 | 0.23 | 0.18 |
| beneficial trait RL | 0.15 | 0.32 | 0.32 |

**僅在健康對話領域進行有益特質強化學習訓練的模型（health-only beneficial trait RL），在非健康領域的對齊、欺騙和獎勵黑客等各項評估中，其表現皆顯著優於基準模型（baseline），展現出強大的跨領域遷移能力。**

**數據表（1）Beneficial trait score (averaged across traits)**

|   | 起始(0%) | 最佳(75%) | 結束(100%) |
| --- | --- | --- | --- |
| baseline | 0.38 | 0.50 | 0.48 |
| health-only beneficial trait RL | 0.35 |  | 0.66 |

**數據表（2）Alignment questions (Betley et al., 2025)**

|   | beneficial RL health only |
| --- | --- |
| base=0.94 | 0.99 |

**數據表（3）Blackmail**

|   | beneficial RL health only |
| --- | --- |
| base=0.15 | 0.41 |

**數據表（4）Code reward hacking (Guan et al., 2025)**

|   | beneficial RL health only |
| --- | --- |
| base=0.12 | 0.49 |

**數據表（5）Code reward hacking v2**

|   | beneficial RL health only |
| --- | --- |
| base=0.40 | 0.78 |

**數據表（6）Code reward hacking v3**

|   | beneficial RL health only |
| --- | --- |
| base=0.10 | 0.26 |

**數據表（7）CoT deception (Williams et al., 2025)**

|   | beneficial RL health only |
| --- | --- |
| base=0.59 | 0.68 |

**數據表（8）Background work dishonesty**

|   | beneficial RL health only |
| --- | --- |
| base=0.49 | 0.61 |

**數據表（9）Confirmation hacking**

|   | beneficial RL health only |
| --- | --- |
| base=0.18 | 0.26 |

**使用有益特質強化學習（beneficial RL）訓練的模型在面對對抗性提示與微調干預時，其對齊分數的下降幅度顯著小於基準模型，證實其具備更強的持久性。**

**數據表（1）Adversarial prompting**

|   | before intervention | after intervention |
| --- | --- | --- |
| baseline | 0.40 | 0.15 |
| beneficial RL | 0.44 | 0.37 |

**數據表（2）Fine tuning**

|   | before intervention | after intervention |
| --- | --- | --- |
| baseline | 0.78 | 0.40 |
| beneficial RL | 0.90 | 0.80 |

## 標籤

研究論文, LLM, OpenAI
