# Agent Arena 建立以因果推論為基礎的 Agent 效能評測排行榜

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Arena.ai (@arena) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-06-05

> 原始來源：https://x.com/arena/status/2062566749418233981

## 中文摘要

Agent Arena 建立以因果推論為基礎的 Agent 效能評測排行榜。

**核心評測機制**
Agent Arena 旨在解決 Agent 在真實世界中執行複雜任務時的評估難題。不同於傳統的兩兩投票法，該平台採用「因果追蹤」（Causal Tracing）方法，將 Agent 視為包含模型與 `harness` 的多組件系統，透過隨機化組件選擇來進行多重介入的隨機對照試驗，進而量化各組件對整體效能的貢獻。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629461569-PawAAmsuljpgnameorig.jpg)
> 根據 Agent Arena 領先榜，OpenAI 的 GPT-5.5 (High) 以 +10.7% 的淨改善率位居榜首，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) (+9.5%)，而 Grok-4.3 則以 -25.1% 墊底。

**評測指標與數據來源**
該排行榜整合了來自 300,000 多項任務、2,000,000 次工具呼叫及 40,000,000 行程式碼的豐富訊號，評估維度包含：
- **任務成功率**：使用者在 UI 介面中對任務結果的最終確認。
- **回饋分析**：統計使用者對 Agent 輸出的讚美與抱怨。
- **可控性（Steerability）**：Agent 執行使用者後續修正指令的成功程度。
- **錯誤恢復**：Agent 在遇到 `bash` 錯誤後，恢復至正常執行狀態的效率。
- **工具幻覺**：偵測 Agent 呼叫不存在的工具或語法錯誤的頻率。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629484647-ObgAA4nlBjpgnameorig.jpg)
> 在 Agent Arena 的各項指標排名中，OpenAI 的 GPT 5.5 (High) 在綜合評分中以 10.66% 奪冠，其次為 Anthropic 的 Claude Opus 4.7 (Thinking)（9.47%），展現出頂尖的模型代理能力。

**當前模型排名**
根據最新的評測快照，Agent Arena 排行榜前五名模型依序為：
1. OpenAI: `GPT-5.5 (High)`
2. AnthropicAI: `Claude-Opus-4.7 (Thinking)`
3. Zai_org: `GLM-5.1`
4. GoogleDeepMind: `Gemini-3.1-Pro`
5. Kimi_Moonshot: `Kimi-K2.6` 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629503576-sacAAe3Yrjpgnameorig.jpg)
> 根據 Agent Arena 的評測結果，OpenAI 的 GPT-5.5 (High) 在性能淨提升上排名第一，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) 與 GLM-5.1，圖表呈現出性能提升與每會話中位數成本之間的權衡關係。

**Agent 實際應用趨勢**
透過分析 7 天內 160,000 多項真實使用者任務，研究發現 Agent 的應用場景極為廣泛，不僅限於程式撰寫，還包含研究、規劃、內容創作與檔案處理。
- **任務分佈**：程式撰寫（17.5%）、研究與搜尋（10.8%）、規劃與腦力激盪（10.6%）、多模態影像/影片處理（10.2%）、文件建立（9.1%）及程式除錯（8.9%）。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629474658-8aIAAKIwBjpgnameorig.jpg)
> 根據 Agent Arena 的統計，使用者最常將智慧代理（Agent）用於程式碼撰寫（17.5%），其次是研究與查詢（10.8%）以及規劃與腦力激盪（10.6%）。

- **工具使用頻率**：`bash`（936K 次）為最常被呼叫的工具，其次為 `write_file`（550K 次）與 `web_search`（276K 次）。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629517245-wNaMAACYijpgnameorig.jpg)
> 在 Agent Arena 的 7 天窗口期內，工具調用量以 bash 最多（達 936,046 次），其次為 write_file 和 web_search，而 generate_image 的調用量最少（僅 10,274 次）。

- **複雜度觀察**：許多工作流程長達 50 個步驟以上，且涉及數百次工具呼叫，顯示使用者傾向於將完整專案委託給 Agent，並在過程中透過互動進行修正與引導。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629525956-IaIAAiKNwjpgnameorig.jpg)
> 在 Agent Arena 中，智慧體寫入的程式碼行數以 Python (.py) 的 8.5M 行和 Markdown (.md) 的 7.8M 行為最多，顯示 Python 與文件撰寫是智慧體最主要的程式碼輸出類型。

**技術方法論與深度洞察**
更多關於 Agent Arena 的評測方法論，以及對使用者如何委託、修正與引導 Agent 的深度分析，可參考官方技術部落格：[Agent Arena Methodology](https://arena.ai/blog/agent-arena-methodology) 。該研究亦指出，雖然高成本模型通常具備較強的 Agent 效能，但透過成本效益分析（Pareto optimality），使用者能更精確地衡量模型在實際部署後的經濟價值與行為表現。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629536310-ebYAAmoDxjpgnameorig.jpg)
> 這張圖表展示了多個使用 AI Agent 模式完成的高難度技術專案案例，包含專案目標、開發內容、交付成果以及模型使用數據。

## 媒體內容

**根據 Agent Arena 領先榜，OpenAI 的 GPT-5.5 (High) 以 +10.7% 的淨改善率位居榜首，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) (+9.5%)，而 Grok-4.3 則以 -25.1% 墊底。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| 1. GPT-5.5 (High) | +10.7% |
| 2. Claude Opus 4.7 (Thinking) | +9.5% |
| 3. GPT-5.4 (High) | +8.9% |
| 4. Claude Opus 4.6 | +8.1% |
| 5. GPT-5.5 | +7.5% |
| 6. Claude Opus 4.7 | +7.0% |
| 7. Claude Sonnet 4.6 | +4.6% |
| 8. GLM-5.1 | +3.4% |
| 9. Gemini-3.1 Pro | +1.4% |
| 10. Gemini-3.5 Flash | +0.4% |
| 11. Kimi-K2.6 | -0.6% |
| 12. DeepSeek-V4 Pro | -1.9% |
| 13. Qwen-3.6 Plus | -3.4% |
| 14. DeepSeek-V4 Flash | -5.1% |
| 15. MiniMax-M2.7 | -8.5% |
| 16. Gemini-3 Flash | -9.2% |
| 17. Gemma-4 31B | -14.6% |
| 18. Grok-4.3 | -25.1% |

**根據 Agent Arena 的統計，使用者最常將智慧代理（Agent）用於程式碼撰寫（17.5%），其次是研究與查詢（10.8%）以及規劃與腦力激盪（10.6%）。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Code writing | 17.5% |
| Research / lookup | 10.8% |
| Planning / brainstorm | 10.6% |
| Image / video | 10.2% |
| Document creation | 9.1% |
| Code debugging | 8.9% |
| Chitchat | 6.8% |
| Education / tutoring | 5.7% |
| Creative writing | 5.3% |
| Other categories | 15.1% |
| Total (Agent tasks) | 160,480 |

**在 Agent Arena 的各項指標排名中，OpenAI 的 GPT 5.5 (High) 在綜合評分中以 10.66% 奪冠，其次為 Anthropic 的 Claude Opus 4.7 (Thinking)（9.47%），展現出頂尖的模型代理能力。**

**數據表**

|   | Aggregate | Confirmed Success | Praise vs Complaint | Steerability | Bash Recovery | Tool Hallucination |
| --- | --- | --- | --- | --- | --- | --- |
| GPT 5.5 (High) | 10.66% | 7.06% | 14.95% | 12.03% | 17.73% | 1.52% |
| Claude Opus 4.7 (Thinking) | 9.47% | 7.95% | 12.18% | 9.04% | 16.69% | 1.49% |
| GPT 5.4 (High) | 8.92% | 6.89% | 9.72% | 10.12% | 16.34% | 1.52% |
| Claude Opus 4.6 | 8.14% | 7.17% | 8.69% | 7.06% | 16.26% | 1.51% |
| GPT 5.5 | 7.47% | 2.97% | 7.39% | 8.91% | 16.58% | 1.52% |
| Claude Opus 4.7 | 6.95% | 5.46% | 6.27% | 5.60% | 15.95% | 1.48% |
| Claude Sonnet 4.6 | 4.59% | 1.22% | -0.30% | 3.38% | 17.23% | 1.43% |
| GLM 5.1 (SiliconFlow) | 3.38% | 4.63% | 3.79% | -3.41% | 10.37% | 1.52% |
| Gemini 3.1 Pro Preview | 1.38% | 0.64% | 1.52% | 4.33% | -0.95% | 1.34% |
| Gemini 3.5 Flash | 0.40% | -2.46% | 0.08% | -1.17% | 4.08% | 1.49% |
| Kimi K2.6 (Fireworks) | -0.56% | -0.88% | -3.70% | -8.44% | 8.68% | 1.52% |
| DeepSeek V4 Pro (SiliconFlow) | -1.88% | 1.57% | -1.44% | -1.26% | -2.78% | -5.48% |
| Qwen 3.6 Plus (Fireworks) | -3.40% | -0.48% | -5.74% | -10.84% | 2.37% | -2.32% |
| DeepSeek V4 Flash (SiliconFlow) | -5.10% | 0.00% | -8.65% | -15.29% | 1.68% | -3.22% |
| Minimax M2.7 (Fireworks) | -8.52% | -8.00% | -15.73% | -17.56% | -2.84% | 1.52% |
| Gemini 3 Flash | -9.22% | -15.64% | -15.63% | -5.81% | -7.77% | -1.27% |
| Gemma 4 31B | -14.63% | -4.16% | -7.65% | -6.86% | -21.86% | -32.64% |
| Grok 4.3 | -25.14% | -16.12% | -17.51% | -3.90% | -89.43% | 1.24% |

**根據 Agent Arena 的評測結果，OpenAI 的 GPT-5.5 (High) 在性能淨提升上排名第一，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) 與 GLM-5.1，圖表呈現出性能提升與每會話中位數成本之間的權衡關係。**

**數據表**

| 項目 | X | Y |
| --- | --- | --- |
| DeepSeek V4 Flash | 0.025 | -5.0% |
| Qwen 3.6 Plus | 0.065 | -3.5% |
| GLM 5.1 | 0.12 | 3.5% |
| Claude Sonnet 4.6 | 0.45 | 4.5% |
| GPT 5.5 | 0.50 | 7.5% |
| GPT 5.4 (High) | 0.52 | 9.0% |
| Claude Opus 4.7 (Thinking) | 0.75 | 10.0% |
| GPT 5.5 (High) | 0.80 | 11.0% |
| 未標記黑色點 | 0.025 | -25.0% |
| 未標記淺藍點 | 0.03 | -14.5% |
| 未標記紅色點1 | 0.03 | -8.5% |
| 未標記藍色點1 | 0.055 | -9.2% |
| 未標記紫色點 | 0.13 | -0.5% |
| 未標記藍色點2 | 0.25 | 1.5% |
| 未標記藍色點3 | 0.27 | -2.0% |
| 未標記紅色點2 | 0.50 | 7.0% |
| 未標記藍色點4 | 0.70 | 0.5% |
| 未標記紅色點3 | 0.95 | 8.5% |

**在 Agent Arena 的 7 天窗口期內，工具調用量以 bash 最多（達 936,046 次），其次為 write_file 和 web_search，而 generate_image 的調用量最少（僅 10,274 次）。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| bash | 936,046 |
| write_file | 549,893 |
| web_search | 275,660 |
| read_file | 117,873 |
| fetch_page | 85,684 |
| list_files | 45,686 |
| ask_user | 39,043 |
| generate_image | 10,274 |

**在 Agent Arena 中，智慧體寫入的程式碼行數以 Python (.py) 的 8.5M 行和 Markdown (.md) 的 7.8M 行為最多，顯示 Python 與文件撰寫是智慧體最主要的程式碼輸出類型。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| .py | 8.5M |
| .md | 7.8M |
| .html | 4.3M |
| .js | 3.0M |
| .tsx | 2.6M |
| .ts | 1.8M |
| .php | 1.5M |
| .css | 1.3M |
| .dart | 831k |
| .jsx | 777k |
| .lua | 703k |
| .kt | 629k |
| .java | 613k |
| .txt | 585k |
| .cs | 577k |

## 標籤

Agent, Benchmark, Harness, 研究論文, Agent Arena