# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：KK的AI笔记 (@ainotes_KK) · 平台：X (Twitter) · 日期：2026-06-15

> 原始來源：https://x.com/ainotes_KK/status/2066160239146402275

## 中文摘要

# Fable 5 到底有多強？為什麼被禁止？看完這 12 個真實案例你就懂了！

> Anthropic 剛把 Fable 5 放出來沒多久，美國政府的新限制就來了。普通模型更新，很少會這麼快被單獨拎出來管。

我看到這條公告時，腦子裡冒出來的第一個問題很直接：

Fable 5 到底強到了什麼程度？

一個模型剛發布，就因為存取範圍問題被重新拿出來講，這很少見。它能做什麼，能做到什麼程度，才會讓平台和監管都變得緊張？

這篇我不打算寫成官方公告翻譯。公告、測試分數、限制範圍都要看，但更關鍵的是那些真實案例。因為案例比參數更直觀。看完之後你會發現，這一代模型已經開始從「會回答」往「會做事」走了。

## 01｜美國先把門關了一半

Anthropic 後續發布了存取限制說明。核心變化很簡單：Fable 5 和 Mythos 5 的存取範圍開始收緊，非美國公民會受到更嚴格限制。

這件事放在普通產品更新裡很反常。一般模型發布，大家討論的是價格、context window、跑分、API。Fable 5 這裡，討論焦點很快變成了存取權限。

我覺得這才是這次最值得看的地方。模型能力上來以後，平台關心的問題已經不止是「它聰不聰明」，還包括「誰能用它」、「用到什麼程度」、「出了問題誰負責」。

## 02｜Fable 5 這次的位置很特殊

Fable 5 是 Anthropic 在 6 月發布的新模型，官方把它放在 Mythos 級能力這一檔。普通使用者能用到 Fable 5，更窄的可信存取場景裡還有 Mythos 5。

官方給出的測試成績也很猛。SWE-bench Pro 80.3%，Terminal-Bench 88.0%，OSWorld-Verified 85.0%，FrontierCode Diamond 29.3%。

![Claude Mythos 5 / Fable 5 在多項基準測試（如代理編碼、知識工作、空間推理等）中表現優異，得分普遍超越 Claude Opus 4.8、GPT 5.5 及 Gemini 3.1 Pro。](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/770700649469d16a.jpg)

<details class="chart-data"><summary>展開數據表</summary><table><thead><tr><th></th><th>Claude Mythos 5 / Fable 5</th><th>Claude Mythos Preview</th><th>Claude Opus 4.8</th><th>GPT 5.5</th><th>Gemini 3.1 Pro</th></tr></thead><tbody><tr><td>Agentic coding (SWE-Bench Pro)</td><td>80.3%</td><td>77.8%</td><td>69.2%</td><td>58.6%</td><td>54.2%</td></tr><tr><td>Agentic coding (FrontierCode (Diamond))</td><td>29.3% (xhigh)</td><td>—</td><td>13.4% (xhigh)</td><td>5.7% (xhigh)</td><td>—</td></tr><tr><td>Knowledge work (GPQA-AA)</td><td>1932</td><td>—</td><td>1890</td><td>1769</td><td>1314</td></tr><tr><td>Knowledge work vision (GPQA-pdf)</td><td>29.8% (no tools)</td><td>—</td><td>22.5% (no tools)</td><td>24.9% (no tools)</td><td>16.7% (no tools)</td></tr><tr><td>Spatial reasoning (Blueprint-Bench 2)</td><td>38.6%</td><td>—</td><td>14.5%</td><td>36.2%</td><td>26.5%</td></tr><tr><td>Tool use (AutomationBench)</td><td>17.4%</td><td>—</td><td>15.5%</td><td>12.9%</td><td>9.6%</td></tr><tr><td>Computer use (OSWorld-Verified)</td><td>85.0%</td><td>85.4%</td><td>83.4%</td><td>78.7%</td><td>76.2%</td></tr><tr><td>Legal (Legal Agent Benchmark)</td><td>13.3%</td><td>—</td><td>10.4%</td><td>2.1%</td><td>0.0%</td></tr><tr><td>Multidisciplinary reasoning (Humanity's Last Exam - no tools)</td><td>59.0%*</td><td>56.8%</td><td>49.8%</td><td>41.4%</td><td>44.4%</td></tr><tr><td>Multidisciplinary reasoning (Humanity's Last Exam - with tools)</td><td>64.5%*</td><td>64.7%</td><td>57.9%</td><td>52.2%</td><td>51.4%</td></tr><tr><td>Biology (BioMysteryBench - hard)</td><td>46.1%*</td><td>29.6%</td><td>40.0%</td><td>—</td><td>—</td></tr><tr><td>Biology (BioMysteryBench - human solved)</td><td>83.9%*</td><td>82.6%</td><td>80.4%</td><td>—</td><td>—</td></tr><tr><td>Agentic coding (Terminal-Bench 2.1)</td><td>88.0%*</td><td>—</td><td>82.7%</td><td>83.4% (Codex CLI)</td><td>70.7% (Gemini CLI)</td></tr><tr><td>Cybersecurity (ExploitBench (Cap%))</td><td>78.0%*</td><td>69.0%</td><td>40.0%</td><td>34.0%</td><td>—</td></tr><tr><td>Health (HealthBench Professional)</td><td>66.0%*</td><td>64.7%</td><td>56.9%</td><td>51.8%</td><td>—</td></tr></tbody></table></details>

## 03｜12 個真實案例，看完就知道它為什麼被盯上了

1. 一句話生成 Windows

第一個案例很直觀。有人讓 Fable 5 生成一個類似 Windows 的系統介面。

最後出來的畫面裡，有桌面，有視窗，有工作列，有應用程式入口，也有設定頁。它把一個小系統的層級關係搭出來了。

我看這個案例時，最在意的是那個「系統感」。開始選單怎麼出現，視窗怎麼擺，設定頁應該長什麼樣，按鈕和卡片之間該怎麼分層，這些東西單獨看都不難，放在一起就很考驗模型的組織能力。

這張圖最值得看的地方，不止是像 Windows。它把一個系統介面該有的秩序感做出來了。

2. 20 分鐘復刻 Minecraft

第二個案例是 20 分鐘復刻 Minecraft。

畫面裡已經有方塊地形、移動視角、世界邊界和基礎互動。這個案例最刺激的地方是時間。

20 分鐘，放在以前，可能也就夠一個人打開專案、建檔案、找依賴、跑通環境。現在模型已經能在這段時間裡搭出一個可以繼續改的雛形。

小遊戲、教學 demo、互動原型，最怕的就是第一版起不來。想法一直在腦子裡轉，專案資料夾卻永遠空著。這個案例讓我在意的點就在這裡：它先把東西跑起來了。

3. 一句話復刻 Skyrim

Skyrim 這個案例更偏遊戲氛圍。

雪地、角色、視角、選單，幾個關鍵元素都在。它知道這類遊戲的味道從哪裡來：環境、人物、UI 和移動感要同時出現。

這類 demo 最難的地方，是整體不能散。畫面可以粗糙，互動可以簡單，但只要世界感搭起來了，後面就有繼續打磨的空間。

Fable 5 做到的就是這一步。

4. 生成真實 3D 森林

3D 森林這個案例，看起來沒有遊戲那麼熱鬧，但技術含量不低。

樹、光、水面、地形、鏡頭，這些元素要擺在一個空間裡。畫面裡已經有可以進入的感覺，和單純生成一張森林圖片差別很大。

5. 城市交通模擬器

城市交通模擬器這個案例，道路、路口、車輛、城市塊面都搭了起來，看起來像一個可以繼續加規則的模擬專案。

這種東西對模型要求很雜。它要懂視覺佈局，也要懂基本邏輯，還要讓介面看起來像能執行。生成一張城市圖沒什麼，生成一個「城市交通系統」的雛形，難度高不少。

6. 物理模擬壓過 Opus 4.8

物理模擬這個案例裡，Fable 5 和 Opus 4.8 做了對比。

我看影片時的感覺很明顯：Fable 5 的運動狀態更穩，物體變化更連貫，畫面穩得多。物理模擬很考驗模型，因為介面之外，還要讓規則跑得通。

這類能力以後會很有用。做教學動畫、互動實驗、工程演示，很多時候不需要一上來就做工業級軟體，先有一個能跑的模擬就夠用了。

7. 一天修復 Hermes World 6 個 bug

有人讓 Fable 5 重做 Hermes World，並在一天內修復 6 個 bug。這個任務對開發者更有感覺。寫一個新 demo 已經不容易，接手一個已有專案，讀懂結構，再把問題修掉，更麻煩。

它需要先理解舊程式碼，知道問題在哪裡，再改到不影響其他部分。很多模型寫新檔案還行，一碰到舊專案就開始亂改。Fable 5 能在這種任務裡跑出結果，說明它在真實開發流程裡更有用了。

8. 基於 CAD 建立 3D 列印模型

CAD 和 3D 列印這個案例，我看完有點意外。

它已經偏向工程工具這一側。Fable 5 藉助 CAD 相關能力，建立了一個可以用於 3D 列印的模型。

這種任務很考驗空間理解。形狀要對，結構要能成立，還要考慮它能不能變成一個實體。模型能摸到這類場景，說明它正在從「寫程式碼」往「操作專業工具」延伸。

9. 建立類似 Photoshop 的軟體

這個案例是生成一個類似 Photoshop 的影像編輯工具。

畫布、工具列、操作區、影像預覽都有。更像一個正在成型的產品介面。

10. 建立類似 Replit 的開發環境

Replit 這個案例更像開發者工具。

介面裡有程式碼編輯區、專案結構、預覽區域，整體已經有了線上 IDE 的形態。這類工具應該圍繞「寫程式碼、看結果、改專案」來組織，Fable 5 抓住了這個結構。確實牛逼！

11. 17 分鐘自動做影片

17 分鐘內，它把一個影片相關流程跑了起來。腳本、畫面、生成、組織，這些環節開始被串在一起，已經在往完整工作流靠。

以後做內容，很多重複勞動會被拆走。選題、腳本、影像、配音、剪輯、發布前檢查，都可能被模型接管一部分。

真正值錢的，可能會變成判斷力、審美和選題。純粹堆時間的工作，會越來越不值錢了！

12. 自動化製作個人網站

最後一個案例是個人網站。

Fable 5 根據需求自動生成網站結構和頁面效果。

很多人不需要做複雜系統，只想要一個個人主頁、作品集、專案展示頁、產品落地頁。以前要懂模板、懂前端、懂部署。現在你把需求說清楚，它就能先做出一個非常漂亮的網站。

我覺得這類能力會先在輕量工具、個人展示、小團隊原型裡爆發。

## 04｜寫在最後

看完這些案例，再回頭看存取限制，就能明白為什麼 Fable 5 會被單獨拿出來討論。

它已經開始從「回答問題」走向「完成任務」。遊戲、網頁、3D、影片、工具、程式碼修復，它都能直接往前推。12 個案例放在一起看，變化非常明顯。

普通使用者現在能摸到 Fable 5，但摸到的是加了護欄的版本。Mythos 5 留在更窄的可信存取場景裡。這個安排我能理解，能力到了這一層，平台要看它能做什麼，也要看它會被拿去做什麼。

對我來說，這次最值得盯的地方不在模型名字。名字會換，排行榜也會換。真正變化的是，普通人做東西的第一步，正在變簡單。

以前你想做一個工具，先要會程式碼。想做一個 3D 場景，先要會建模。想做一個影片流程，先要會剪輯和自動化。現在第一版的門檻正在被壓低，而且壓得很明顯。

> Fable 5 最值得看的地方，就在這裡。它讓很多過去只能停在腦子裡的想法，開始有機會先長出一個樣子。

## 標籤

產業趨勢, Agent, Anthropic, Fable
	Claude Mythos 5 / Fable 5	Claude Mythos Preview	Claude Opus 4.8	GPT 5.5	Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro)	80.3%	77.8%	69.2%	58.6%	54.2%
Agentic coding (FrontierCode (Diamond))	29.3% (xhigh)	—	13.4% (xhigh)	5.7% (xhigh)	—
Knowledge work (GPQA-AA)	1932	—	1890	1769	1314
Knowledge work vision (GPQA-pdf)	29.8% (no tools)	—	22.5% (no tools)	24.9% (no tools)	16.7% (no tools)
Spatial reasoning (Blueprint-Bench 2)	38.6%	—	14.5%	36.2%	26.5%
Tool use (AutomationBench)	17.4%	—	15.5%	12.9%	9.6%
Computer use (OSWorld-Verified)	85.0%	85.4%	83.4%	78.7%	76.2%
Legal (Legal Agent Benchmark)	13.3%	—	10.4%	2.1%	0.0%
Multidisciplinary reasoning (Humanity's Last Exam - no tools)	59.0%*	56.8%	49.8%	41.4%	44.4%
Multidisciplinary reasoning (Humanity's Last Exam - with tools)	64.5%*	64.7%	57.9%	52.2%	51.4%
Biology (BioMysteryBench - hard)	46.1%*	29.6%	40.0%	—	—
Biology (BioMysteryBench - human solved)	83.9%*	82.6%	80.4%	—	—
Agentic coding (Terminal-Bench 2.1)	88.0%*	—	82.7%	83.4% (Codex CLI)	70.7% (Gemini CLI)
Cybersecurity (ExploitBench (Cap%))	78.0%*	69.0%	40.0%	34.0%	—
Health (HealthBench Professional)	66.0%*	64.7%	56.9%	51.8%	—