# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Arena.ai (@arena) · 平台：X (Twitter) · 日期：2026-06-11

> 原始來源：https://x.com/arena/status/2064807170714358193

## 中文摘要

Claude Fable 5 奪冠展現任務執行領先優勢。

**核心排名與表現**
根據 Arena.ai 的最新評測，Anthropic 推出的「Claude Fable 5」以整體排名第一的成績脫穎而出，相較於其他頂尖模型，其淨改善幅度達 11.2%。該模型在兩項關鍵指標上表現尤為突出：
- **確認任務成功率**：提升 18.2%，位居榜首。
- **讚美與抱怨比率**：提升 30.6%，顯示使用者對其產出結果的滿意度極高。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/2fb381bee78199c0.jpg)
> 根據 Agent Arena 智慧代理排行榜，Claude Fable 5 以 +11.2% 的淨改善率榮登榜首，超越 Claude Opus 4.8 與 GPT-5.5 等競爭對手。

儘管 Claude Fable 5 在「可控性」（Steerability）指標上排名第 17（下降 6.8%），顯示模型目前仍處於穩定階段，但其執行能力極強。Arena.ai 指出，若該模型能處理某項任務，其完成品質極佳；但若遇到模型無法執行或不願執行的任務，使用者在引導模型達成目標時可能會面臨挑戰。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/58f3e0dc996d36d9.jpg)
> Claude Fable 5 在 Agent Arena 排行榜中榮登第一名（整體淨改善度 +11.2%），特別在確認成功率（+18.2%）與好評率（+30.6%）上領先幅度最大，但在可控性（-6.8%）上表現較弱，排名第 17。

**評測方法論**
此次排名採用「因果追蹤」（Causal Tracing）方法論，旨在將 Agent 視為包含模型與 harness 的多組件系統，透過隨機化介入來測量各組件對任務結果的真實貢獻。與傳統的成對投票不同，該方法能精確量化模型在真實世界複雜任務中的表現，包括程式撰寫、檔案系統操作及終端機指令執行等。

**Agent Arena 的評測指標**
為了反映 Agent 在真實工作場景中的表現，Agent Arena 針對數百萬次互動進行分析，目前主要依據以下五大訊號進行評分：
- **確認成功率**：根據使用者在介面上對任務結果的最終批准或否決。
- **讚美與抱怨**：分析使用者對 Agent 產出的口頭回饋。
- **可控性**：測量 Agent 對使用者即時修正指令的反應與執行能力。
- **Bash 恢復能力**：評估 Agent 在遇到 Bash 指令錯誤時，自我修正並恢復正常運作的效率。
- **工具幻覺**：監測 Agent 呼叫不存在工具或產生無效語法的頻率。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/af563ec7d1b4cb52.jpg)
> Claude Fable 5 在 Agent Arena 的「確認成功率」與「讚賞對比投訴」兩項關鍵指標中，以顯著優勢大幅領先 Claude Opus 4.8 和 GPT-5.5 等模型，榮登榜首。

如欲深入了解評測細節或查看完整排行榜，可參閱 [Agent Arena 官方部落格](http://arena.ai/blog/agent-arena-methodology) 或直接前往 [Agent Arena 排行榜](http://arena.ai/leaderboard/agent) 進行探索。

## 媒體內容

**根據 Agent Arena 智慧代理排行榜，Claude Fable 5 以 +11.2% 的淨改善率榮登榜首，超越 Claude Opus 4.8 與 GPT-5.5 等競爭對手。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| 1. Claude Fable 5 | +11.2% |
| 2. Claude Opus 4.7 (Thinking) | +9.0% |
| 3. Claude Opus 4.8 (Thinking) | +9.0% |
| 4. GPT-5.5 (High) | +8.8% |
| 5. GPT-5.4 (High) | +8.0% |
| 6. Claude Opus 4.6 | +7.9% |
| 7. GPT-5.5 | +7.8% |
| 8. Claude Opus 4.7 | +7.7% |
| 9. Claude Opus 4.8 | +4.8% |
| 10. Claude Sonnet 4.6 | +4.0% |
| 11. GLM-5.1 | +2.1% |
| 12. Gemini-3.5 Flash | -0.1% |
| 13. DeepSeek-V4 Pro | -0.2% |
| 14. Kimi-K2.6 | -0.4% |
| 15. DeepSeek-V4 Flash | -1.3% |
| 16. Gemini-3.1 Pro | -1.4% |
| 17. Qwen-3.6 Plus | -4.4% |
| 18. Grok Build 0.1 | -5.4% |
| 19. MiniMax-M2.7 | -8.5% |
| 20. Grok-4.3 (High) | -10.1% |

**Claude Fable 5 在 Agent Arena 的「確認成功率」與「讚賞對比投訴」兩項關鍵指標中，以顯著優勢大幅領先 Claude Opus 4.8 和 GPT-5.5 等模型，榮登榜首。**

**數據表（1）Confirmed Success**

| 項目 | 數值 |
| --- | --- |
| Claude Fable 5 | 18.23% |
| Claude Opus 4.8 (Thinki... = 9.85% |  |
| Claude Opus 4.6 | 7.74% |
| Claude Opus 4.8 | 7.71% |
| GPT 5.4 (High) | 7.45% |
| Claude Opus 4.7 (Thinki... = 7.33% |  |
| GPT 5.5 (High) | 6.51% |
| Claude Opus 4.7 | 5.95% |
| GLM 5.1 | 4.25% |
| DeepSeek V4 Flash | 3.25% |

**數據表（2）Praise vs Complaint**

| 項目 | 數值 |
| --- | --- |
| Claude Fable 5 | 30.59% |
| Claude Opus 4.8 | 15.31% |
| Claude Opus 4.8 (Thinki... = 15.05% |  |
| GPT 5.5 (High) | 12.78% |
| GPT 5.5 | 12.64% |
| GPT 5.4 (High) | 11.13% |
| Claude Opus 4.7 (Thinki... = 10.98% |  |
| Claude Opus 4.6 | 10.95% |
| Claude Opus 4.7 | 9.51% |
| GLM 5.1 | -0.07% |

**Claude Fable 5 在 Agent Arena 排行榜中榮登第一名（整體淨改善度 +11.2%），特別在確認成功率（+18.2%）與好評率（+30.6%）上領先幅度最大，但在可控性（-6.8%）上表現較弱，排名第 17。**

**數據表**

|   | Confirmed Success (Rank 1) | Praise vs Complaint (Rank 1) | Steerability (Rank 17) | Bash Recovery (Rank 7) | Tool Hallucination (Rank 4) |
| --- | --- | --- | --- | --- | --- |
| Overall (Rank 1) = +11.2% | +18.2% | +30.6% | -6.8% | +11.9% | +2.1% |

## 標籤

Benchmark, Claude, 功能更新, LLM, Anthropic, Claude, Arena.ai
