# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Lance Martin (@RLanceMartin) · 平台：X (Twitter) · 日期：2026-06-10

> 原始來源：https://x.com/rlancemartin/status/2064397389189071163

## 中文摘要

# 使用 Fable 5 設計迴圈

像 Claude Fable 5 這類 Mythos 等級的模型，已經改變了我們許多人在 Anthropic 的工作方式。我想分享兩個能讓你從這類模型中獲得最大效益的技巧。

### 自我修正迴圈

最近大家對「迴圈」非常感興趣。@bcherny 曾提到「（他的）工作就是編寫迴圈」。讓模型在評估基準上進行爬山演算法（hillclimbing）是提升任務效能的常見配方：Claude Code 中的 `/goal` 和 Claude Managed Agent 中的 Outcomes，就是讓你針對特定任務應用此通用配方的基礎元件。

正如我們在提示詞工程指南中所提到的，Fable 5 非常擅長在迴圈中進行自我修正。設計良好的目標（goal）或評分標準（rubric）能為 Claude 運行的環境提供回饋。這讓 Claude 能夠執行任務、透過目標或評分標準收集回饋、進行自我修正，並持續運作直到達成目標或符合評分標準為止。

![此圖表比較了 Claude Code /goal 與 Claude Managed Agent Outcomes 兩種目標導向循環（Goal-driven loops）的實作方式，展示兩者在目標、裁判、循環、限制、回饋與結束條件等維度上的設計差異。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781056188349-iaHKYoS3maMAoXYHRjpg.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Claude Code /goal</th><th>Claude Managed Agent Outcomes</th></tr></thead><tbody><tr><td>Goal</td><td>Measurable end state</td><td>Rubric with gradable criteria</td></tr><tr><td>The judge</td><td>Independent grader model (Haiku)</td><td>Independent grader sub-agent</td></tr><tr><td>The loop</td><td>Not-met verdict starts the next turn</td><td>Iterate -&gt; grade -&gt; revise</td></tr><tr><td>Bound</td><td>Turn / time clause in the condition</td><td>max_iterations</td></tr><tr><td>Feedback</td><td>Grader model feedback</td><td>Grader sub-agent feedback</td></tr><tr><td>Exit</td><td>Auto-clear on met or /goal clear</td><td>Rubric passes / interrupt</td></tr></tbody></table></details>

我想分享一個我用來測試 Fable 的玩具範例：Parameter Golf 是一項開源的機器學習工程挑戰，目標是在 8xH100 GPU 上，於 10 分鐘內訓練出一個能放入 16MB 檔案中的最佳模型。

這有點像 @Karpathy 的 autoresearch 專案：它測試了 Agent 編輯基礎訓練程式碼（單一 `train_gpt.py` 檔案）、啟動訓練、輪詢日誌、讀取分數，並決定下一步要執行什麼實驗的能力。

我使用 Claude Managed Agents (CMA) 在這項挑戰中比較了 Fable 5 與 Opus 4.7。CMA 提供了 Agent 的 harness 以及託管的沙盒，因此非常適合 Fable 5 進行長時間運行的任務。針對 Parameter Golf，我提供給 CMA 一個 8xH100 GPU 的自託管沙盒。

一個細微的重點是：由誰來進行評判非常重要。我們發現模型在對自己的輸出進行自我批判時會遇到問題。Prithvi Rajasekaran 在我們的工程部落格中寫過關於這點的內容。

![在 20 次參數優化實驗中，Fable 5 的 val_bpb 表現顯著優於 Claude Opus 4.7，最終達到最佳值 1.1604，而 Claude Opus 4.7 僅達 1.2178。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781056188358-iaHKYo5xEaMAAjeKLjpg.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th>項目</th><th>數值</th></tr></thead><tbody><tr><td>起始</td><td>1.228</td></tr><tr><td>最佳</td><td>1.1604</td></tr><tr><td>結束</td><td>1.1604</td></tr><tr><td>起始</td><td>1.228</td></tr><tr><td>最佳</td><td>1.2178</td></tr><tr><td>結束</td><td>1.2178</td></tr></tbody></table></details>

我們發現，使用 Fable 5 時，驗證者子 Agent（verifier sub-agent）的表現往往優於自我批判，因為評分是在一個獨立的 context window 中完成的。CMA 中的 Outcomes 透過為你生成一個評分者子 Agent 來處理這個問題。

針對每次測試，我提供了一份包含九項可檢查標準的評分標準文件（例如：執行基準測試、進行 20 次實驗等）。接著，我讓 Parameter Golf 運行了長達 8 小時。Outcomes 評分者在允許 Claude 停止工作前，確認了所有實驗標準皆已達成。

Fable 5 在訓練管線上的改進幅度約為 Opus 4.7 的 6 倍。如果我們將實驗視為結構性（例如：架構變更）或純量性（例如：調整常數），Fable 5 傾向於押注在較大的結構性變更上，並展現出穩健性（例如：在量化回歸中堅持下去，最終獲得了最大的勝利）。

Opus 4.7 的第一次實驗產生了小幅獲利，但之後幾乎所有實驗都遵循相同的模板：調整純量、測量、如果結果為正則保留。

### 記憶

記憶是 Fable 表現優異的另一個領域。我們可以將其視為跨越不同對話階段（session）的外部迴圈：Claude 在對話期間寫入記憶，而這些記憶可以在未來的對話中被檢索。

@pgasawa 和團隊最近發布了 Continual Learning Bench 1.0，所以我想要在 Fable 5 與早期模型之間進行測試。

我在該基準測試的其中一項任務中比較了 Fable 5、Opus 4.7 和 Sonnet 4.6：該任務要求 Agent 在存取 SQL 資料庫的情況下回答連續性問題。每個問題都是一個獨立的 Agent 對話階段，並提供記憶功能。

為此，我使用了具備記憶功能的 CMA，它讓每個 Agent 都能存取一個可跨對話階段共享的掛載檔案系統。

![在 Continual Learning Bench 1.0 的資料庫探索任務中，配備記憶庫（With memory store）的模型在最終得分上均優於其無狀態基準（Stateless baseline），其中 Fable 5 表現最佳，最終得分達到 0.839，其次為 Opus 4.7（0.700）與 Sonnet 4.6（0.364）。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781056188355-iaHKYq6HvaMAEfFJgjpg.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Stateless baseline</th><th>With memory store</th></tr></thead><tbody><tr><td>Fable 5</td><td>0.555</td><td>0.839</td></tr><tr><td>Opus 4.7</td><td>0.383</td><td>0.700</td></tr><tr><td>Sonnet 4.6</td><td>0.330</td><td>0.364</td></tr></tbody></table></details>

對於這項任務，有效利用記憶得益於一個漸進過程：失敗（出錯並記錄）、調查（在繼續之前找出原因）、驗證（將診斷結果轉化為已核實的事實）、提煉（將驗證結果轉化為通用規則），以及諮詢（閱讀規則，而不是重新推導）。

Sonnet 4.6 大約在第 1 步就停滯了：它的儲存內容是一堆失敗筆記和未經證實的猜測（例如：「也許是 prc 而不是 prc_usd？」）。它很少諮詢先前的筆記。若要提升效能，需要針對任務的記憶指令。

Opus 4.7 大約在第 3 步停滯：它會建立一個標記了不確定性的結構參照（例如：「可能是以美分計算的 prc？需要驗證。」），但驗證覆蓋率很低：僅在 7-33% 的問題中進行（中位數運行約 17%）。

Fable 5 傾向於完成整個過程：在表現最好的運行中，驗證覆蓋率高達 73%（30 題中答對 22 題），並且會將學習到的內容提煉為有助於未來任務的通用規則。

---

與其直接對 Fable 5 下達提示詞並進行引導，不如設計迴圈，讓模型能夠根據環境回饋（例如 `/goal` 或 Outcomes）進行自我修正，並管理自己的 context（例如透過記憶）。

我只分享了幾個我進行過的小規模實驗，但非常值得你自己親自測試 Fable 5 在挑戰性任務上的表現，並利用迴圈來進行自我修正或記憶管理。

若要開始，請參閱我們的文件，或詢問最新版本的 Claude Code，它可以使用我們內建的 `/claude-api` skill 來告訴你關於 Fable 5（例如提示詞最佳實踐）、`/goal`、Claude Managed Agents 或其他 API 功能的資訊。

## 標籤

Skills, Claude Code, Agent, 教學資源, Anthropic, Claude
