# 策展 · X (Twitter) 🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Arena.ai (@arena) · 平台：X (Twitter) · 日期：2026-06-05

> 原始來源：https://x.com/arena/status/2062566749418233981

## 中文摘要

Agent Arena 建立以因果推論為基礎的 Agent 效能評測排行榜。

**核心評測機制**
Agent Arena 旨在解決 Agent 在真實世界中執行複雜任務時的評估難題。不同於傳統的兩兩投票法，該平台採用「因果追蹤」（Causal Tracing）方法，將 Agent 視為包含模型與 `harness` 的多組件系統，透過隨機化組件選擇來進行多重介入的隨機對照試驗，進而量化各組件對整體效能的貢獻。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629461569-PawAAmsuljpgnameorig.jpg)
> 根據 Agent Arena 領先榜，OpenAI 的 GPT-5.5 (High) 以 +10.7% 的淨改善率位居榜首，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) (+9.5%)，而 Grok-4.3 則以 -25.1% 墊底。

**評測指標與數據來源**
該排行榜整合了來自 300,000 多項任務、2,000,000 次工具呼叫及 40,000,000 行程式碼的豐富訊號，評估維度包含：
- **任務成功率**：使用者在 UI 介面中對任務結果的最終確認。
- **回饋分析**：統計使用者對 Agent 輸出的讚美與抱怨。
- **可控性（Steerability）**：Agent 執行使用者後續修正指令的成功程度。
- **錯誤恢復**：Agent 在遇到 `bash` 錯誤後，恢復至正常執行狀態的效率。
- **工具幻覺**：偵測 Agent 呼叫不存在的工具或語法錯誤的頻率。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629484647-ObgAA4nlBjpgnameorig.jpg)
> 在 Agent Arena 的各項指標排名中，OpenAI 的 GPT 5.5 (High) 在綜合評分中以 10.66% 奪冠，其次為 Anthropic 的 Claude Opus 4.7 (Thinking)（9.47%），展現出頂尖的模型代理能力。

**當前模型排名**
根據最新的評測快照，Agent Arena 排行榜前五名模型依序為：
1. OpenAI: `GPT-5.5 (High)`
2. AnthropicAI: `Claude-Opus-4.7 (Thinking)`
3. Zai_org: `GLM-5.1`
4. GoogleDeepMind: `Gemini-3.1-Pro`
5. Kimi_Moonshot: `Kimi-K2.6` 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629503576-sacAAe3Yrjpgnameorig.jpg)
> 根據 Agent Arena 的評測結果，OpenAI 的 GPT-5.5 (High) 在性能淨提升上排名第一，其次為 Anthropic 的 Claude Opus 4.7 (Thinking) 與 GLM-5.1，圖表呈現出性能提升與每會話中位數成本之間的權衡關係。

**Agent 實際應用趨勢**
透過分析 7 天內 160,000 多項真實使用者任務，研究發現 Agent 的應用場景極為廣泛，不僅限於程式撰寫，還包含研究、規劃、內容創作與檔案處理。
- **任務分佈**：程式撰寫（17.5%）、研究與搜尋（10.8%）、規劃與腦力激盪（10.6%）、多模態影像/影片處理（10.2%）、文件建立（9.1%）及程式除錯（8.9%）。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629474658-8aIAAKIwBjpgnameorig.jpg)
> 根據 Agent Arena 的統計，使用者最常將智慧代理（Agent）用於程式碼撰寫（17.5%），其次是研究與查詢（10.8%）以及規劃與腦力激盪（10.6%）。

- **工具使用頻率**：`bash`（936K 次）為最常被呼叫的工具，其次為 `write_file`（550K 次）與 `web_search`（276K 次）。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629517245-wNaMAACYijpgnameorig.jpg)
> 在 Agent Arena 的 7 天窗口期內，工具調用量以 bash 最多（達 936,046 次），其次為 write_file 和 web_search，而 generate_image 的調用量最少（僅 10,274 次）。

- **複雜度觀察**：許多工作流程長達 50 個步驟以上，且涉及數百次工具呼叫，顯示使用者傾向於將完整專案委託給 Agent，並在過程中透過互動進行修正與引導。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629525956-IaIAAiKNwjpgnameorig.jpg)
> 在 Agent Arena 中，智慧體寫入的程式碼行數以 Python (.py) 的 8.5M 行和 Markdown (.md) 的 7.8M 行為最多，顯示 Python 與文件撰寫是智慧體最主要的程式碼輸出類型。

**技術方法論與深度洞察**
更多關於 Agent Arena 的評測方法論，以及對使用者如何委託、修正與引導 Agent 的深度分析，可參考官方技術部落格：[Agent Arena Methodology](https://arena.ai/blog/agent-arena-methodology) 。該研究亦指出，雖然高成本模型通常具備較強的 Agent 效能，但透過成本效益分析（Pareto optimality），使用者能更精確地衡量模型在實際部署後的經濟價值與行為表現。 

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629536310-ebYAAmoDxjpgnameorig.jpg)
> 這張圖表展示了多個使用 AI Agent 模式完成的高難度技術專案案例，包含專案目標、開發內容、交付成果以及模型使用數據。

## 標籤

Agent, Benchmark, Harness, 研究論文, Agent Arena
