# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Rafa Schwinger 🇻🇦 (@Rafa_Schwinger) · 平台：X (Twitter) · 日期：2026-06-15

> 原始來源：https://x.com/Rafa_Schwinger/status/2066230802439180447

## 中文摘要

# Fable 的物理學

# 驗證器（Verifier）才是護城河

## Fable 大概是如何打造出來的，以及為什麼它的領先優勢是以「月」而非「年」來計算

免責聲明：此處的一切皆為基於公開資訊的個人推論，但請不要與 Rafadomis 對賭。

每一次試圖對 Claude Mythos 及其公開版本 Fable 進行逆向工程的嘗試，都會去尋找某種架構上的秘密，例如其他實驗室錯過的參數數量或 Attention 變體，但這種搜尋方向從一開始就錯了。Anthropic 曾向早期合作夥伴簡報說明，其架構並無任何異常之處，儘管這個說法僅來自單一來源，但與該模型的行為表現一致。在 2025 年 5 月廣為流傳的一場對話中，該實驗室的兩位研究人員直言不諱地表示，大型語言模型的強化學習（Reinforcement Learning）終於奏效了，而決定其是否有效的關鍵在於「獎勵是否可被驗證」[1]。這項證據已有一年之久，屬於 Claude 4 時代，因此它更多是先例而非 Mythos 確切管線（pipeline）的證明，但它將解釋的方向從網路架構轉向了訓練訊號，這正是目前有趣變數所在之處。

用簡潔的方式陳述現狀：2026 年前沿模型的品質遵循單一關係：

> 能力 ~= (基礎模型) × (提取出的可評分訊號)

第一個因素是模型知道什麼以及它如何清晰地呈現這些知識。第二個因素是目前稀缺且具決定性的關鍵，即「可評分的經驗」，也就是那些結果可以廉價且可靠地被檢查的任務，這樣訓練過程才能獎勵真正正確的內容，而非僅僅是讀起來通順的內容。文字資料很豐富，對於領先的實驗室來說，原始算力已不再是限制性輸入；可驗證的訊號才是依然稀缺的部分。

區分兩個容易被混淆的概念很有幫助。Fable 這款產品是一個複合式的路由系統。當其分類器偵測到網路安全、生物學、化學或模型蒸餾相關的請求時，答案會改由 Claude Opus 4.8 提供，這是一個在發布資料中已承認的後備方案，並且在第三方排行榜上 Fable 的評估模型名稱中可見，顯示為「Claude Fable 5 (Opus 4.8 fallback)」[2][3]。對系統卡（system card）的二次解讀描述了對前沿 AI 研究請求的進一步限制，最初是隱藏的，透過 Prompt 修改、轉向向量（steering vectors）或 LoRA 系列權重編輯來實作；Anthropic 後來將其公開，並承認這種隱藏設計是一個錯誤 [4]。Mythos 基礎模型則是另一回事。它看起來像是一個單一的整合網路，延續了 Anthropic 自 Claude 3.7 以來描述的血統，其中推理能力是單一模型具備的能力，而非透過獨立模型或路由器來達成 [5]。大多數認為 Fable 是由多個模型組成的直覺，其實是對產品底層架構的觀察。核心模型是一個單一網路，如下所述，它在推論時會進行面板化（paneling），而更有趣的可能性是，部分面板化過程已被折疊回訓練階段。

# 兩種最佳資料

如果限制性輸入是可驗證的訊號，那麼前沿實驗室的工作就是製造「最佳資料」，而這些資料以兩種形式出現。第一種是靜態的：密集、高訊號的預訓練語料庫。第二種是互動式的：可驗證的環境，這本質上就是帶有獎勵的資料，即「任務 + 是否被解決的檢查」。曾經投入單一大型預訓練運行的算力，現在已被重新分配到一個持續運行的平行引擎中，該引擎負責製造並篩選這兩種資料，生成合成語料庫、在環境中運行強化學習 rollout，並在測試時進行採樣。算力在這種轉變中並沒有消失，而是改變了形態，這也是為什麼強化學習在實務上已成為一項「推論受限」的活動，而非「訓練受限」的活動。

# 構建層級

構建過程分為多個層級，每一層都有其機制、公開證據以及信心水準。（錨點數據僅為參考，並非模型實際使用的數據）

| 層級 | 機制 | 錨點數據 | 狀態 |
|:-----------------------|:--------------------------------|:--------------------------------------|:-------------------------------|
| 密集預訓練 | 每參數位元數；來源標籤提高可用容量 | 1:7 垃圾與 20 倍損失，標籤至 2 倍 [6]；改寫 ~3 倍，30/70 合成混合 5-10 倍 [7] | 技術類別已確認；Mythos 用於推論 |
| 環境中的驗證器 RL | GRPO；抗獎勵作弊的驗證器 | 命名為環境擴展（Environment Scaling）團隊 [8]；穩健性作為限制條件 [9] | 投資已確認；未顯示優於規模擴大 |
| 長視角 RL | 過程獎勵；學習到的上下文折疊 | 32K vs 327K 活動上下文 [11] | 機制在開源 36B 模型上已確認 |
| 人類示範 | 攔截 UI 操作加上策略內（on-policy）回饋 | Adept 專利 US 12,437,238 B1 [19] | 已確認；異質堆疊 |
| 推論時算力 | 帶驗證器的 Best-of-N；努力程度撥桿 | SWE-bench 63.7 至 70.3 [5] | 已確認；Claude-3.7 時代先例 |
| 遞迴自我改進 | 模型加速其後繼者 | ~4 倍提升，單一任務 52 倍，低於 ~40 倍閾值 [17][18] | 已確認，自我報告，低於閾值 |

基礎建立在密集、經過策展的預訓練之上，這點之所以重要，是因為它是可量化的，而非修辭。Allen-Zhu 和 Li 將知識容量量化為位元，發現有用 token 與垃圾 token 的比例若為 1:7，會使模型的儲存效率下降多達 20 倍；而在文件前加上來源標籤（例如網域名稱）這樣簡單的操作，就能恢復大部分損失，將懲罰從 20 倍降低到約 2 倍 [6]。關鍵不在於更多的 token，而在於更密集、更乾淨、標記更好的 token，這就是為什麼將 C4 等雜訊語料庫改寫為乾淨版本能帶來約 3 倍的預訓練速度提升，以及為什麼在大型資料環境下，混合約 30% 的高品質合成資料與 70% 的自然網路文字，在相同算力下收斂速度快了 5 到 10 倍 [7]。這些結果並非來自 Anthropic，因此它們確立了技術類別而非確切配方，且每種技術的乘數效應是有上限的；合成預訓練是更乾淨基底的真正貢獻者，而非唯一的飛躍。

在這個基底之上是針對可驗證獎勵的強化學習（RLVR），這是最具決定性的層級。整個領域的演算法核心是 GRPO 的某種變體，它省去了獨立的價值網路（value network），並從由獎勵評分的 rollout 群組中估算優勢。困難的工程不在於優化器，而在於獎勵。有用環境的限制性要求是「穩健性」，意味著高獎勵必須真正對應到任務被解決，而不是被鑽漏洞（reward hacking），而使驗證器對這種作弊行為具有穩健性，是從業者一致認為真正的瓶頸所在，這比擴大環境數量更困難 [9]。這也是為什麼僅有結果的獎勵對於長任務來說是不夠的，實驗室正轉向對中間步驟進行評分的「過程獎勵」，這一點在下文會再次提到。Anthropic 將環境構建視為一種常態功能，而非一次性的研究工作：它設有一個專門的「環境擴展」團隊，其職位描述中提到了設計獎勵訊號並建立品質保證框架以捕捉獎勵作弊行為 [8]。這項投資是真實的，儘管該職位描述將工作圍繞在新的垂直領域，單憑這一點並不能證明驗證器 RL 優於規模擴大。

2025 年那場對話中的一個細節讓情況變得清晰，應將其視為一種訊號而非量化數據。研究人員指出，該實驗室在那之前在強化學習上花費了約一百萬美元，而在基礎模型預訓練上花費了數億美元，在確認演算法正確之前，刻意將 RL 的預算保持在較小規模，其隱含意義顯而易見：一旦確認正確，支出就會擴大 [1]。將 Mythos 的飛躍解讀為在全新基底上進行大規模、經過驗證的驗證器 RL 擴展是符合該意圖的，儘管該實驗室並未披露 Mythos 本身的數據。

程式撰寫值得單獨列出，因為它解釋了整個企業的重心。程式碼是唯一同時具備「長視角」且「廉價可驗證」的領域：它需要規劃、工具使用、有狀態的上下文以及錯誤恢復，且結果可以透過編譯和執行測試來檢查。這種組合使程式撰寫成為製造價值最高的環境，這就是為什麼每個嚴肅實驗室的 Agent 故事往往先從程式碼講起 [34]。並非所有訊號都是合成的或透過自我對弈（self-play）學習到的。透過收購 Adept 獲得的一項專利涵蓋了電腦使用子系統，它描述了透過攔截人類介面操作以及收集來自 Agent 自身運行時的策略內回饋來生成 Agent 軌跡，這是一個異質堆疊，而非純粹的人類模仿 [19]。

模型現在協助構建其後繼者，儘管並非自主進行。根據 Anthropic 的說法，目前的系統為研究人員帶來了約 4 倍的產出提升，而在一個固定的程式碼優化任務上，測得的加速比在一年內從約 3 倍上升到約 52 倍，實驗室本身也提醒該數據不應被解讀為現實世界的訓練加速 [17]。對比之下，實驗室用來定義「真正自動化 AI 研究」的閾值（即將兩年進度壓縮為一年）接近 40 倍，而系統卡指出 Mythos 並未跨越該門檻 [18]。飛輪效應是真實且陡峭的，人們仍在推動它。

# 為什麼它思考清晰

清晰的推理是單一步驟中經過評分的正確性。一個在「正確性可被檢查」（例如程式碼編譯成功或失敗、證明成立或不成立）環境下訓練的模型，會被選擇出那些能通過檢查的推理方式，而非僅僅聽起來合理的推理，這就是為什麼這些系統在數學和軟體領域讀起來清晰明瞭，但在品質取決於品味且不存在廉價驗證器的領域則表現平平。同樣的邏輯也延伸到推論階段。自 Claude 3.7 以來，Anthropic 採樣了多個平行嘗試，丟棄那些無法通過可見回歸測試的嘗試，並使用學習到的評分模型對倖存者進行排名，這是一種「帶驗證器的 Best-of-N」程序，將其 SWE-bench 結果從 63.7% 提升至 70.3%，並應用於 GPQA 和 AIME [5]。目前模型上的努力程度控制就是將該機制暴露為一個撥桿，決定每個答案要購買多少驗證量。誠實的警告是，這是 Claude-3.7 時代的證據，因此它是該系列方法的先例而非 Mythos 確切程序的描述，且目前存在一個尚未解決的爭議（在清華大學的一項研究中表現得最為尖銳），即這種強化學習是安裝了真正的新推理能力，還是主要在強化並縮小到基礎模型已有的模式 [16]。

# 為什麼它能持久

長時間的 Agent 工作是跨越多個步驟的「經過評分的正確性」，這是最常被誤歸因於上下文視窗大小的能力。百萬 token 視窗在 2026 年 3 月達到了 4.6 版本 [33]，透過對長文件進行持續預訓練加上 RoPE 或 YaRN 重縮放的標準路徑獲得，這是一種相對廉價的擴充，並非持久性的來源。長任務失敗是因為單步錯誤會累積，而一個依賴自身早期錯誤的模型，隨著這些錯誤在上下文中堆疊，會變得更容易出錯。這種關係是雙向的：單步準確性的邊際收益會複合為模型能完成任務長度的指數級收益，因此一個每步 99.9% 正確的模型能完成那些讓每步 99% 正確的模型崩潰的運行，這種差異在短基準測試中微不足道，但在長任務中卻成了決定性因素。同樣的研究顯示，這種自我調節並不會透過擴大模型規模來消除，儘管刻意的推論時推理可以抑制它 [10]，這悄悄地統一了這兩種能力，因為能強化單步正確性的推論時思考，同時也抑制了導致長運行失敗的錯誤連鎖反應。

![圖表顯示單步可靠度的微小差距在長任務中會被急劇放大：99.99% 的單步可靠度在 800 步後仍能維持約 92% 的生存率，而 99% 的可靠度在約 70 步時即跌破 50% 且最終趨近於 0%，證實了微小的單步優勢決定了長程運行的成敗。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1e7b6ce0c808d2a5.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>起始</th><th>結束</th></tr></thead><tbody><tr><td>99.99% per step</td><td>100%</td><td>約92%</td></tr><tr><td>99.9% per step</td><td>100%</td><td>約45%</td></tr><tr><td>99% per step</td><td>100%</td><td>約0%</td></tr></tbody></table></details>

訓練端的補救措施是「學習到的上下文管理」。一個能分支進入子任務並將其折疊為摘要的 Agent，可以在攜帶比長上下文基準小一個數量級的活動上下文（32K 對 327K token）的情況下，匹配或超越長上下文基準，前提是折疊過程是直接透過步驟級的過程獎勵進行訓練的，因為稀疏的終端獎勵被證明太弱而無法教會它 [11]。該結果來自一個開源的 36B 模型而非 Anthropic，因此它展示的是機制而非具體實作，但它精確地定位了真正的限制。KV 快取隨序列長度線性增長並主導了服務成本，因此持久性的秘訣是保持活動上下文較小，而非擴大名義上的視窗，持久性被解讀為在上下文紀律方面的訓練能力，而非視窗大小的屬性。

第三方測量與此一致。METR 將 Mythos 置於其自主時間視窗表的頂端，但該說法的誠實版本非常謹慎：該模型記錄了至少 16 小時的 50% 成功視窗，且置信區間非常寬（從約 8.5 到 55 小時），METR 本身也指出，在當前測試套件中，超過 16 小時的測量是不可靠的，因為只有少數任務運行那麼久 [12]。GPT-5.5 或最近的 Opus 版本沒有可比數據，因此這是一個上限讀數而非清晰的排名，這對下文的比較很重要。

# 為什麼它擊敗了 Opus 4.8

因為能力是乘法關係，Opus 4.8 在兩個因素上同時失分。它是前一代基底的打磨版本，其強化學習是在較弱的基底上運行的，而 RL 的上限受限於它所強化的基底，這正是清華大學爭議性主張的實際內容，即該方法傾向於縮小到現有模式而非增加新模式 [16]。Mythos 是一個更新、更昂貴的基底，且在其之上進行了更多長視角的驗證器 RL；Opus 4.8 是一個較舊的基底，且進行的 RL 較少。兩者發布時間僅差 12 天，這就是為什麼「新舊」從來不是解釋原因，差距在於構建方式而非日曆時間。

# 為什麼它在網格測試中僅微幅領先

在綜合公開基準測試中，領先模型非常接近。引用最多、來自早期世代的快照顯示，頂級的 OpenAI、Anthropic 和 Google 模型在綜合指數上相差不到一分，接近到可以稱為平手 [31]。這個觀察是真實且值得陳述的，但它低估了真實情況，因為綜合基準測試是短視角的且日益飽和，它們無法看到真正產生區別的地方。有意義的差距在於「長視角自主性」和「多小時優化」，在這些領域中，微小的單步可靠性優勢會在數百個步驟中複合為決定性優勢，且沒有共享的公開基準測試能解決這些差異。產生這種優勢的配方是趨同的，因此剩下的優勢在於深度和整合，而非秘密，解讀該領域最清晰的方式是根據與 Anthropic 環境鑄造廠（foundry）的接近程度進行評分。

| 實驗室 | 鑄造廠證據 | 接近度 | 限制條件 / 追趕路徑 |
|:---------------|:------------------------------------------|:-------------|:---------------------------|
| **Google DeepMind** | AlphaProof：AlphaZero 風格 RL + Lean 驗證器，~1M 自動形式化至 ~80M 自生成問題，推論時 RL [24]；「經驗時代」接地獎勵；擁有 Docs/Sheets/Drive；整合 TPU | 共同領袖（結構上） | 發布實驗室級驗證器 RL 作為可靠的通用 Agent |
| **OpenAI** | 命名為「合成 RL」團隊（環境 + 回饋）[25]；Agent 後訓練小組；自 2016 年以來的 RL-gym 傳承；GPT-5.5 在 Agent/程式碼/網路安全方面強大 [27] | 共同領袖（組織上） | 長視角可靠性；將自主網路安全限制在受信任存取之後 [28] |
| **DeepSeek** | 1,800+ 可驗證 RL 環境，~85k Agent 任務，GRPO，六個專家蒸餾為一個 [20]；稀疏 Attention；MLA 在其繼承的 V2 設計中削減了 ~93% KV 快取 [21] | 最接近的中國實驗室；方法相等 | 算力：受出口管制 ~50k Hopper，>$500M，非「$6M」標題 [26] |
| **Alibaba / Qwen** | 20,000 個平行可執行環境用於長視角 Agent RL；執行驅動的可驗證程式碼 RL；480B / 35B-active MoE [22] | 高（程式碼導向） | 程式碼以外的廣度；算力 |
| **Moonshot / Kimi** | 基於規則的「可驗證獎勵 Gym」+ 準則自我批評；1T / 32B-active MoE；MuonClip [23] | 高（Agent 導向） | 長視角深度；算力 |
| **MiniMax** | Agent 原生 RL 基礎設施（「Forge」）：平行 rollout，可驗證軌跡；229.9B-total / 9.8B-active MoE；M2.7 除錯其自身的訓練運行 [35] | 高，快速崛起 | 規模與算力 |
| **Zhipu / GLM** | 在自動可驗證網頁/程式碼上的 Agent RL；專家專業化後統一自我蒸餾 [36] | 中至高 | 算力；前沿可靠性 |
| **xAI** | 在 RL 環境和 RL 角色（「Macrohard」）進行招聘以構建環境和驗證器，高達 $440k [32]；Grok 在 Colossus 上擴展了可驗證獎勵 RL | 算力豐富，鑄造廠不成熟 | 鑄造廠是新的；若成熟則為 6-12 個月的威脅 |
| **Meta (MSL)** | Muse Spark：在 >10 倍算力效率下的 RL 縮放定律，平行 Agent「沉思模式」[37] | 崛起中，落後於護城河軸線 | 承認長視角/程式碼差距；鑄造廠細節很少 |
| **Amazon / Microsoft** | Nova 2 Agent（tau2-Bench 77.7, SWE-Verified 70.0）[38]；MAI-Thinking-1，微軟首個推理模型（SWE-Bench Pro 53%）[39] | 次要 | 落後於前沿集群 |

供應這些環境的供應商市場形成迅速，幾家公司現在估值達數十億美元，據報導 Anthropic 本身已討論在一年內花費超過十億美元在 RL 環境上 [26]。DeepSeek 的開放性是觀察該方法最有效的單一視窗，因為它發布了 Anthropic 只暗示的內容，而最近的 V4 配方特別能說明問題：它將基底分叉為各領域專家，然後透過來自十多個教師模型面板的策略內蒸餾將它們整合 [40]，這是一種在訓練時而非服務時存在的複合式面板結構。這是目前最清晰的暗示，即 Fable 明顯的自我面板化可能部分是基底訓練方式的屬性。中國實驗室展示了配方但缺乏算力；美國實驗室擁有算力但隱藏了配方。

# GPT-5.5 對抗 Fable

以 Opus 4.7 作為公開的 Anthropic 代理，因為原始 Mythos 從未對外銷售，兩者的正面對決按領域劃分，而非偏袒單一模型 [27]。

| 軸線 | Opus 4.7 (代理) | GPT-5.5 | 領先者 |
|:------------------------------------|:-----------------------------|:-----------------------------------|:----------|
| SWE-bench Pro (多檔案) | 64.3 | 58.6 | Anthropic |
| Terminal-Bench 2.0 (Agent 迴圈) | 69.4 | 82.7 | OpenAI |
| FrontierMath | 43.8 | 52.4 | OpenAI |
| BrowseComp (網路研究) | 79.3 | 84.4 | OpenAI |
| 自主網路安全 | 「階梯式變化」，自我報告 [18] | 高，低於臨界；無完整鏈 [28] | 有爭議 |
| 開放式長視角 (Vending-Bench) | 未領先 | 未領先 | 皆非 |

![Anthropic 在多檔案 SWE 領域領先，而 OpenAI (GPT-5.5) 則在終端機、數學和網頁研究領域領先。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2af741d6917f59fc.png)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Opus 4.7 (Anthropic proxy)</th><th>GPT-5.5</th></tr></thead><tbody><tr><td>SWE-bench Pro (multi-file)</td><td>64.3%</td><td>58.6%</td></tr><tr><td>Terminal-Bench 2.0 (agentic loops)</td><td>69.4%</td><td>82.7%</td></tr><tr><td>FrontierMath</td><td>43.8%</td><td>52.4%</td></tr><tr><td>BrowseComp (web research)</td><td>79.3%</td><td>84.4%</td></tr></tbody></table></details>

網路安全行是最重要且最難以清晰測量的：OpenAI 的評級是自我評分的安全性評估，而 Mythos 的特徵描述是 Anthropic 自己的且在幅度上存在爭議。不存在清晰的長視角比較，因為 METR 沒有 GPT-5.5 的公開視窗，而 Mythos 已經處於可靠上限之外。Vending-Bench 行是對將「長視角強度」解讀為「全面統治」的有用修正，因為在沒有明確驗證器的開放式 Agent 任務上，Anthropic 的產品線並未領先，這符合優勢集中在「工作既長且廉價可檢查」之處的模式。網格上的情況接近平手，真正且更大的差距存在於長視角、可驗證的自主性中，這正是測量最薄弱的地方。

# 兩種體制

目標是每單位能源和價格的智慧，以兩種模式追求。

在前沿領域，能力幾乎是不計成本地購買的，Fable 的定價接近 Opus 4.8 的兩倍，但在公開基準測試上僅多出約 5.7% [31]。在機隊中，同樣的能力被蒸餾並廉價提供：Haiku 4.5 達到了上一代 Sonnet 的程式撰寫水準，在 SWE-bench Verified 上達到 73.3%，略高於 Sonnet 4 在同一基準測試上的 72.7%，成本僅為三分之一，速度快了兩倍以上，並被定位為大型規劃器所編排的廉價子 Agent [13][14]。更廣泛的效率前沿（以每瓦智慧衡量）在兩年內提高了約 5.3 倍，儘管該數字來自本地和邊緣推論而非資料中心服務，應在該範圍內解讀 [15]。一個警告應放在顯眼處：這種兩種體制故事中較乾淨的計量經濟學版本，以及流傳的 Anthropic 特定能源和晶片數量，並未經受住審查，因此只有定性形態（前沿的昂貴探索與機隊中的廉價蒸餾部署）是值得信任的。

# 為什麼它的強度與危險並存

獎勵最容易驗證的領域（程式碼和安全性首當其衝）也是模型最決定性地超越人類的領域，這就是為什麼使 Fable 成為最強大程式撰寫系統的同樣能力，也讓它能發現即時漏洞。合作夥伴報告在第一個月內發現了約一萬個高危或嚴重漏洞，其中 1,752 個由六家獨立安全公司評估，真實陽性率為 90.6%，留下約 1,500 個獨立確認的漏洞；這兩個數字都來自 Anthropic 自己的披露而非外部懷疑論者，這是加權它們的正確方式 [29]。驅動網路安全結果的同樣可驗證性也出現在生物學方面，評分員估計，原本需要數十個工作日的紅隊協議在約 16 小時內就產生了，這是一種近百倍的壓縮，系統卡將其視為接近資格閾值 [18]。6 月 12 日導致兩款模型下線的出口管制令，是在一個透過合作夥伴報告的演示之後發布的，該演示顯示模型可以被驅動進行自主漏洞發現；Anthropic 將觸發該越獄的行為描述為狹窄的，並否認它普遍擊敗了防護措施，但命令仍然有效，模型隨之變暗 [30]。卓越與危害在此佔據了相同的座標，因為定義該模型的網路安全能力，也是導致監管行動並將其拉下的原因。

# 另一個實驗室如何複製它

劇本壓縮為單一指令：贏得工廠而非模型，然後是一份簡短的行動清單：

1.  將資料與環境鑄造廠建立為常態功能，配備專門人員進行環境生成、獎勵與驗證器設計，以及獎勵作弊的品質保證，而非將其視為研究副專案。

1.  深入研究帶有過程獎勵的長視角、可驗證環境，因為短視角類型（單元測試和數學答案）已經商品化，差距存在於多小時任務中。

1.  透過策展、去重、標記來源以及混合高品質合成資料來提高每 token 位元數，從而使基底密集化。

1.  透過帶驗證器的 Best-of-N 消耗推論時算力，並將其作為努力程度控制公開。

1.  為尚未能自動評分的領域獲取人類示範，正如 Anthropic 透過 Adept 所做的那樣。

1.  運行雙體制機隊，將前沿模型蒸餾為規劃器下的廉價子 Agent。

1.  在算力受限的地方，像中國實驗室那樣在演算法效率上競爭，使用 KV 快取削減、極度稀疏的專家混合（MoE）和 GRPO。

這些舉措沒有一個是秘密。護城河在於它們的整合，以及在一個真正值得信任的驗證器背後所投入的多年迭代。

# 看不見的東西

有幾件事仍然真正處於視野之外，標記它們比掩蓋它們更有用：

- 基礎架構（密集或專家混合）尚未解決，傳聞中的十兆參數和分層 Attention 細節沒有主要支持，且與基於吞吐量的更謹慎規模估計相矛盾。

- 推論時和整合推理的證據來自 Claude 3.7 時代，因此它是該系列的先例而非當前規格。

- 各領域的剖面無法被清晰測量，因為 Fable 的公開分數受到其安全路由的混淆；路由僅觸發了個位數百分比的會話，而乾淨的未阻擋數字屬於一個從未銷售的模型。

- 內部教師假設（一個太危險而無法部署的模型蒸餾出更安全的學生）仍未解決，且因反覆發現「自生成資料往往匹配或超越來自更大教師的蒸餾」而減弱，因此密集自生成訊號加上新鮮 RL 的混合，比單一隱藏預言機更具辯護性。

- 收益並非均勻的：除了網路安全和生物學的階梯式變化外，同一份系統卡報告在一個平凡的地方出現了回歸，即編造參考文獻的比例高於前代模型。

- 能源和定價數字已被反駁，只剩下定性的雙體制形態。

# 結論

在所有這些爭論中倖存下來的主張很狹窄，且我認為它是正確的。一個模型的清晰度和持久性取決於它所訓練對抗的可驗證訊號。清晰的思考是單一步驟中經過評分的正確性，持久性是跨越多個步驟的經過評分的正確性，兩者皆由同一個環境鑄造廠產生，以密集預訓練為基底，以推論時算力作為在答案值得時購買更多驗證的方式。這項成就是一座工廠而非秘密，是目前任何人為製造可驗證訊號所建立的最深管線，這也是為什麼根據實驗室自己對配方傳播速度的估算，領先優勢最好以「月」而非「年」來計算。

# 參考文獻

- **[1]** Sholto Douglas 和 Trenton Bricken 在 Dwarkesh Patel 節目上的對話（2025 年 5 月），關於可驗證獎勵 RL 和刻意保持較小的早期 RL 預算：https://www.dwarkesh.com/p/sholto-trenton-2

- **[2]** Claude Fable 5 和 Mythos 5 發布，受限領域路由至 Opus 4.8：https://www.anthropic.com/news/claude-fable-5-mythos-5

- **[3]** Fable 5 模型條目，顯示「Opus 4.8 Fallback」配置和路由行為：https://artificialanalysis.ai/models/claude-fable-5

- **[4]** 系統卡解讀，描述前沿 AI 研究限制以及 Anthropic 隨後的逆轉：https://thezvi.substack.com/p/claude-fable-5-and-mythos-5-the-system

- **[5]** Claude 3.7 Sonnet，帶驗證器的 Best-of-N（SWE-bench 上從 63.7 到 70.3）和整合推理：https://www.anthropic.com/news/claude-3-7-sonnet

- **[6]** Allen-Zhu 和 Li，語言模型物理學 3.3，知識容量與來源標籤結果：https://arxiv.org/abs/2404.05405

- **[7]** WRAP，改寫網路資料（C4 上約 3 倍）：https://arxiv.org/abs/2401.16380；Demystifying Synthetic Data（30/70 混合，5 到 10 倍）：https://arxiv.org/html/2510.01631v1

- **[8]** Anthropic「環境擴展」研究工程師職位，獎勵設計與獎勵作弊 QA：https://jobs.menlovc.com/companies/anthropic/jobs/67669113-research-engineer-environment-scaling

- **[9]** Epoch AI，關於 RL 環境的常見問題，關於獎勵作弊穩健性作為限制條件：https://epoch.ai/gradient-updates/state-of-rl-envs

- **[10]** 長視角執行與自我調節，包括指數級錯誤複合：https://arxiv.org/abs/2509.09677

- **[11]** Context-Folding 和 FoldGRPO，帶過程獎勵的 32K 對 327K 活動上下文：https://arxiv.org/abs/2510.11967

- **[12]** METR 任務完成時間視窗，包括 16 小時以上的可靠性上限：https://metr.org/time-horizons/

- **[13]** Claude Haiku 4.5，SWE-bench Verified 上 73.3，成本為三分之一，速度快兩倍以上：https://www.anthropic.com/news/claude-haiku-4-5

- **[14]** Claude 4，Sonnet 4 在 SWE-bench Verified 上 72.7 的來源：https://www.anthropic.com/news/claude-4

- **[15]** 每瓦智慧（史丹佛），本地和邊緣推論兩年內提升 5.3 倍：https://arxiv.org/abs/2511.07885

- **[16]** RLVR 以及 RL 是否增加新的推理能力（清華大學，有爭議）：https://arxiv.org/abs/2504.13837

- **[17]** Anthropic 關於遞迴自我改進，約 4 倍提升和約 52 倍單一任務數據及其警告：https://www.anthropic.com/institute/recursive-self-improvement

- **[18]** Mythos Preview 系統卡鏡像，約 40 倍自動化研發閾值，網路安全「階梯式變化」，以及生物學提升估計：https://gist.github.com/Michaelliv/0677ab6a64312211e38b7a99a03c5f61

- **[19]** 專利 US 12,437,238 B1（透過 Adept），從攔截的人類操作和策略內回饋生成 Agent 軌跡：https://pubchem.ncbi.nlm.nih.gov/patent/US-12437238-B1

- **[20]** DeepSeek-V3.2，1,800+ 環境，GRPO，六個專家蒸餾為一個：https://arxiv.org/abs/2512.02556

- **[21]** DeepSeek-V2，MLA 削減約 93% KV 快取的來源：https://arxiv.org/abs/2405.04434

- **[22]** Qwen3-Coder，20,000 個平行可執行環境和執行驅動的程式碼 RL：https://qwenlm.github.io/blog/qwen3-coder/

- **[23]** Kimi K2，可驗證獎勵 Gym，準則自我批評，1T / 32B-active MoE，MuonClip：https://arxiv.org/abs/2507.20534

- **[24]** Nature 上的 AlphaProof (2025)，帶 Lean 驗證器和推論時 RL 的 AlphaZero 風格 RL：https://www.nature.com/articles/s41586-025-09833-y；Silver 和 Sutton，「經驗時代」

- **[25]** OpenAI「合成 RL」團隊職位（環境與回饋）：https://openai.com/careers/researcher-synthetic-rl-san-francisco/

- **[26]** 環境供應商市場與 Anthropic 據報導超過 10 億美元的環境支出：https://techcrunch.com/2025/09/21/silicon-valley-bets-big-on-environments-to-train-ai-agents/

- **[27]** GPT-5.5 對抗 Opus 4.7 基準測試拆解與定價：https://www.datacamp.com/blog/gpt-5-5-vs-claude-opus-4-7

- **[28]** GPT-5.5 網路安全評級，高但低於臨界，無完整鏈利用：https://deploymentsafety.openai.com/gpt-5-5/cybersecurity

- **[29]** Glasswing 更新，10,000+ 合作夥伴發現以及獨立評估的 1,752 / ~1,587 個確認漏洞：https://www.anthropic.com/research/glasswing-initial-update

- **[30]** 6 月 12 日的出口管制令與有爭議的越獄：https://www.axios.com/2026/06/12/anthropic-trump-mythos-fable-national-security

- **[31]** 三方綜合接近平手（早期世代）：https://the-decoder.com/new-artificial-analysis-benchmark-shows-openai-anthropic-and-google-locked-in-a-three-way-tie-at-the-top/；Fable 定價接近 Opus 兩倍，效能多 5.7%：https://the-decoder.com/anthropics-claude-fable-5-costs-twice-as-much-for-5-7-percent-more-performance/

- **[32]** xAI RL 環境與「Macrohard」招聘（高達 $440k）：https://job-boards.greenhouse.io/xai/jobs/4916837007

- **[33]** 4.6 版本上的百萬 token 上下文通用可用性（2026 年 3 月）：https://karangoyal.cc/blog/claude-opus-4-6-1m-context-window-guide

- **[34]** RL 環境市場與作為元領域的程式撰寫：https://www.wing.vc/content/who-will-win-the-rl-environment-market--and-why

- **[35]** MiniMax-M2，229.9B-total / 9.8B-active MoE，「Forge」RL 基礎設施，M2.7 自我除錯：https://arxiv.org/abs/2605.26494

- **[36]** GLM-4.5，專家專業化後統一自我蒸餾：https://arxiv.org/abs/2508.06471

- **[37]** Meta Muse Spark，在 >10 倍算力效率下的 RL 縮放定律：https://ai.meta.com/blog/introducing-muse-spark-msl/

- **[38]** Amazon Nova 2 技術報告（tau2-Bench 77.7, SWE-Verified 70.0）：https://assets.amazon.science/c5/3d/84514a224666b5be6de4b43ef4aa/nova-2-0-technical-report2.pdf

- **[39]** Microsoft MAI-Thinking-1，其首個推理模型（SWE-Bench Pro 53%）：https://microsoft.ai/news/introducing-mai-thinking-1/

- **[40]** DeepSeek V4 後訓練，「十個教師，一個學生」配方（V4 報告的二次分析）：https://maximelabonne.substack.com/p/deepseek-v4-ten-teachers-one-student

## 標籤

研究論文, Rumor, Anthropic, Claude, Fable