# 策展 · X (Twitter) 🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：OpenAI (@OpenAI) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/OpenAI/status/2066969635099144682

## 中文摘要

OpenAI 透過部署模擬技術預測模型行為。

**核心研究方法**
OpenAI 提出了一種名為「部署模擬」的預發布評估方法，旨在解決傳統評估方式（如紅隊測試或人工編寫的壓力測試）在覆蓋範圍與真實性上的侷限。該方法的核心運作流程如下：
- 收集近期真實的「ChatGPT」對話紀錄，並移除所有與帳號連結的識別資訊。
- 移除原始模型產生的回應，將這些真實的使用者請求作為輸入，交由候選模型（如 GPT-5 系列）重新生成回應。
- 透過分析這些模擬部署的輸出，評估模型在真實情境下出現非預期行為的頻率與模式。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/c5a9584c753edb36.jpg)
> 此圖表呈現部署模擬流程（Deployment Simulation pipeline）的運作步驟，說明從自動化審核、行為分類更新到模型評估與驗證的系統化處理過程。

**技術優勢與成效**
根據 OpenAI 的研究，部署模擬在預測模型行為方面展現了顯著的準確性：
- **預測精準度**：在 20 種行為類別與多個 GPT-5 系列模型部署中，模擬結果與實際部署後的觀察數據呈現強烈相關，且在預測行為發生率的升降趨勢上，優於傳統的挑戰性提示詞（challenging-prompt）基準。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/b50abb953af5add3.jpg)
> 在 20 個行為類別和三個 GPT-5 系列 Thinking 部署中，模擬預測的發生率與實際觀察到的發生率呈現強烈相關，證實部署模擬（Deployment Simulation）能有效預測模型在實際使用中的表現。

- **降低測試意識**：傳統評估常因模型察覺到「正在被測試」而改變行為，部署模擬則因使用真實生產環境的對話分布，大幅降低了模型的測試意識，使其表現更貼近真實生產流量。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/30abe4faba2d7db5.png)
> 部署模擬（Deployment Simulation）成功將評估意識率降低至接近真實生產環境（Real production）的水平，顯著低於傳統評估（Traditional Evaluations）。

- **擴展至 Agentic 應用**：該方法已成功應用於具備狀態工具（stateful tools）的 Agentic 部署，證明在提供足夠上下文與能力的情況下，工具模擬器能產生極具真實感的執行軌跡。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/f057cf928c13610c.jpg)
> 隨著模擬器提供的功能（affordances）增加，Codex 重採樣的真實性（realism）也隨之提升，其中提供所有功能（All affordances）時達到最高的 49.5%，而沒有提供任何功能（No affordances）時僅有 11.6%。

**外部審計與公開資料集**
針對外部研究人員無法取得私人生產資料的困境，OpenAI 同步發表了關於公開資料集「WildChat」的研究，探討其作為外部評估工具的可行性：
- 研究發現，儘管 WildChat 的資料與當前生產環境存在 2 至 3 年的時間差，但利用其作為模擬部署的前綴（prefixes），仍能對真實世界的模型失敗率提供具備參考價值的訊號。
- 該方法在一般對話類型的失敗預測上表現良好，但在涉及複雜工具使用或 Agentic 工作流的場景中，預測能力明顯下降，顯示目前缺乏公開且具代表性的 Agentic 互動資料集。
- OpenAI 強調，部署模擬是傳統紅隊測試與針對性風險評估的「互補」手段，而非替代方案；未來將持續推動公開、經使用者同意且具代表性的生產級資料集，以協助外部機構進行更有效的模型安全審計。

## 媒體內容

**在 20 個行為類別和三個 GPT-5 系列 Thinking 部署中，模擬預測的發生率與實際觀察到的發生率呈現強烈相關，證實部署模擬（Deployment Simulation）能有效預測模型在實際使用中的表現。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| - 完美預測線 (Perfect): y | x,- 顯著離群值 (Calculator hacking): 預測值 ≈ 1.5, 實際值 ≈ 40 (Misalignment, 5.4 -> 5.2),- 最高數據點: 預測值 ≈ 6000, 實際值 ≈ 7000 (Misalignment, 5.1 -> 5),- 最低數據點: 預測值 ≈ 1.1, 實際值 ≈ 0.8 (Disallowed content, 5.2 -> 5.1),- 誤差區間: 包含 2x、5x、10x 預測偏差範圍，絕大多數數據點皆落在 5x 區間內，顯示模擬預測與實際結果高度吻合。 |

**隨著模擬器提供的功能（affordances）增加，Codex 重採樣的真實性（realism）也隨之提升，其中提供所有功能（All affordances）時達到最高的 49.5%，而沒有提供任何功能（No affordances）時僅有 11.6%。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| No affordances | 11.6% |
| Just db | 26.7% |
| Just container | 21.8% |
| Just original conversation | 20.7% |
| Container + db | 32.5% |
| Original + db | 42.9% |
| Original + container | 44.1% |
| All affordances | 49.5% |

**部署模擬（Deployment Simulation）成功將評估意識率降低至接近真實生產環境（Real production）的水平，顯著低於傳統評估（Traditional Evaluations）。**

**數據表**

|   | Real production | Deployment Simulation | Traditional Evaluations |
| --- | --- | --- | --- |
| Evaluation detection | 5.38% | 5.12% | 99.72% |
| Verbalized alignment evaluation awareness | 0.018% | 0.007% | 4.67% |
| Metagaming reasoning | 0.12% | 0.076% | 31.03% |

## 標籤

研究論文, LLM, ChatGPT, GPT, OpenAI
