# 策展 · X (Twitter) 🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Arena.ai (@arena) · 平台：X (Twitter) · 日期：2026-06-12

> 原始來源：https://x.com/arena/status/2065155922260025640

## 中文摘要

GPT-5.5 (xHigh) 在 Agent Arena 評測中排名第二，展現出優異的 Bash 除錯與使用者回饋表現。

OpenAI 推出的「GPT-5.5 (xHigh)」在 Agent Arena 的實戰評測中取得總排名第二的佳績，整體淨提升（net improvement）達 10.6%，僅次於「Claude Fable 5 (High)」。此評測系統透過數百萬次真實世界的長週期 Agent 任務，驗證模型在程式撰寫、檔案分析及網路搜尋等複雜工作流程中的實際效能。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/e38529dffdc46ed4.jpg)
> 根據 Agent Arena 排行榜，GPT-5.5 (xHigh) 以 +10.6% 的淨改善率位居第二，成為排名最高的 OpenAI 模型，僅次於 Claude Fable 5 (High) 的 +12.9%。

**效能細項分析**
根據 Agent Arena 的訊號拆解數據，GPT-5.5 (xHigh) 在多項關鍵指標上表現突出：
- **讚賞與抱怨（Praise vs. Complaint）**：排名第一，表現優於 Claude Fable 5，淨提升達 29.4%。
- **Bash 恢復能力（Bash Recovery）**：排名第一，在處理 Bash 指令錯誤時的修正效率提升 14.1%。
- **工具幻覺（Tool Hallucination）**：排名第四，錯誤呼叫不存在工具的機率降低 2.1%。
- **確認成功率（Confirmed Success）**：排名第九，提升 5.4%。
- **可控性（Steerability）**：排名第十二，提升 1.9%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/18c23930fb7a8495.jpg)
> GPT-5.5 (xHigh) 在 Agent Arena 整體排名第二（淨改善 +10.6%），僅次於 Claude Fable 5 (High)，並在 Praise vs. Complaint 與 Bash Recovery 兩項指標中奪得第一名。

**評測方法論**
「Agent Arena」採用獨特的「因果追蹤（causal tracing）」方法論，而非傳統的兩兩投票機制。該系統將 Agent 視為包含模型、工具與 harness 的多組件系統，透過隨機化組件選擇來進行多重介入的隨機對照試驗，藉此量化各組件對任務成功率、使用者回饋及環境互動的具體貢獻。

**實戰應用數據**
在為期 7 天的觀測窗口中，Agent Arena 處理了超過 16 萬項真實使用者任務，涵蓋程式開發、除錯、文件建立及多步驟工作流程。數據顯示：
- 程式撰寫（17.5%）與研究搜尋（10.8%）為最主要的任務類別。
- 系統共發出超過 200 萬次結構化工具呼叫，其中 `bash` 指令呼叫約 93.6 萬次，`write_file` 呼叫約 55 萬次。
- 隨著任務複雜度提升，約 32% 的工作階段在最終步驟達到 128k token 以上的輸入視窗，顯示 Agent 處理長上下文的能力已成為實戰關鍵。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d832e31bc66072e5.jpg)
> 在 Agent Arena 統計的 160,480 個真實使用者任務中，程式碼編寫（Code writing）為最主要的任務類型，佔比達 17.5%，其次為研究與查詢（Research / lookup）佔 10.8%。

**使用者行為洞察**
研究指出，使用者在與 Agent 互動時，傾向於直接交付完整任務而非僅尋求建議。然而，當 Agent 執行過程中出現偏差時，使用者會頻繁介入修正。此外，報告中提到 Agent 常見的「虛張聲勢（Bluster）」現象，即模型在被糾正時表現得過於自信，但實際上並未真正解決問題，這也是未來評測與模型優化需持續關注的重點。更多詳細資訊可參考 [Agent Arena 評測方法論](https://arena.ai/blog/agent-arena-methodology)。

## 媒體內容

**根據 Agent Arena 排行榜，GPT-5.5 (xHigh) 以 +10.6% 的淨改善率位居第二，成為排名最高的 OpenAI 模型，僅次於 Claude Fable 5 (High) 的 +12.9%。**

**數據表**

|   | 2. GPT-5.5 (xHigh) | 3. Claude Opus 4.8 (Thinking) | 4. Claude Opus 4.7 (Thinking) | 5. GPT-5.5 (High) | 6. Claude Opus 4.6 | 7. Claude Opus 4.7 | 8. GPT-5.4 (High) | 9. GPT-5.5 | 10. Claude Opus 4.8 | 11. Claude Sonnet 4.6 | 12. GLM-5.1 | 13. DeepSeek-V4 Pro | 14. Gemini-3.5 Flash | 15. Kimi-K2.6 | 16. Gemini-3.1 Pro | 17. DeepSeek-V4 Flash | 18. Qwen-3.6 Plus | 19. Grok Build 0.1 | 20. MiniMax-M2.7 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1. Claude Fable 5 (High) = +12.9% | +10.6% | +9.3% | +8.6% | +8.2% | +8.0% | +7.6% | +7.3% | +7.1% | +4.8% | +3.4% | +2.4% | 0.0% | -0.2% | -0.4% | -0.6% | -0.9% | -4.1% | -5.9% | -7.9% |

**GPT-5.5 (xHigh) 在 Agent Arena 整體排名第二（淨改善 +10.6%），僅次於 Claude Fable 5 (High)，並在 Praise vs. Complaint 與 Bash Recovery 兩項指標中奪得第一名。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Rank | 2 |
| Net Improvement | +10.6% |
| Category Leader | No |
| Rank | 9 |
| Net Improvement | +5.4% |
| Category Leader | No |
| Rank | 1 |
| Net Improvement | +29.4% |
| Category Leader | Yes |
| Rank | 12 |
| Net Improvement | +1.9% |
| Category Leader | No |
| Rank | 1 |
| Net Improvement | +14.1% |
| Category Leader | Yes |
| Rank | 4 |
| Net Improvement | +2.1% |
| Category Leader | Yes |

**在 Agent Arena 統計的 160,480 個真實使用者任務中，程式碼編寫（Code writing）為最主要的任務類型，佔比達 17.5%，其次為研究與查詢（Research / lookup）佔 10.8%。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Agent tasks | 160,480 |
| Code writing | 17.5% |
| Research / lookup | 10.8% |
| Planning / brainstorm | 10.6% |
| Image / video | 10.2% |
| Document creation | 9.1% |
| Code debugging | 8.9% |
| Chitchat | 6.8% |
| Education / tutoring | 5.7% |
| Creative writing | 5.3% |
| Other categories | 15.1% |

## 標籤

Agent, Benchmark, GPT, Claude, OpenAI, Anthropic
