# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Arena.ai (@arena) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/arena/status/2066943450914943025

## 中文摘要

GLM-5.2 (Max) 在 Agent Arena 排行榜躍升至第 10 名，成為目前表現最強的開源大型語言模型。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/a8ff02b50411996e.jpg)
> GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10（淨改善幅度為 +4.4%），表現逼近 Claude Opus 4.8，且大幅領先其他開源模型。

Arena.ai 發布了最新評測數據，指出由 Zai_org 開發的 GLM-5.2 (Max) 在 Agent Arena 排行榜上取得顯著進步，從前一代的第 13 名上升至第 10 名。該模型在「確認任務成功率」與「使用者正面回饋」兩項指標上有明顯增長，且在保持與 GLM-5.1 相同價格（輸入/輸出每百萬 token 為 1.4/4.4 美元）與 1M context window 的前提下，展現了優於 Claude-Opus-4.8（非思考模式）的實戰能力。

**效能評測指標**
根據 Agent Arena 的因果追蹤（causal tracing）方法論，GLM-5.2 (Max) 的各項指標表現如下：
- 總排名：第 10 名（提升 4.4%）。
- 工具幻覺（Tool Hallucination）：並列第 1 名（提升 1.9%）。
- 確認任務成功率（Confirmed Task Success）：第 3 名（提升 9.4%）。
- 正面回饋與抱怨比（Praise vs. Complaint）：第 3 名（提升 14.9%）。
- Bash 錯誤恢復（Bash Recovery）：第 16 名（提升 1.7%）。
- 可控性（Steerability）：第 20 名（下降 6.0%）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/eba2c291d207481a.jpg)
> GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10，其在確認任務成功率與用戶好評度上取得顯著進步，但在可控性（Steerability）上有所下滑（-6.0%）。

**評測方法論**
Agent Arena 採用不同於傳統兩兩投票的評測機制，透過「因果追蹤」來評估 Agent 系統。該方法將 Agent 視為包含模型、harness 與工具的多組件系統，透過隨機化組件選擇來進行多重干預的隨機對照試驗，進而計算出各組件對任務成功率、使用者回饋及環境互動的因果影響。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/d2c011b90998dc5b.jpg)
> GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10，相較於 GLM-5.1（排名第 13）有顯著提升，特別是在「確認成功」與「讚賞與抱怨」兩項指標上進步最為明顯，但在「可控性」上有所折衷。

**實際應用背景**
Arena.ai 透過 [Agent Mode](https://arena.ai/agent) 收集了全球使用者在真實工作場景中的數百萬次互動，涵蓋軟體工程、財務分析等複雜任務。數據顯示，高複雜度的 Agent 任務（如程式開發與除錯）佔比極高，且使用者在互動中傾向於將任務完整交付給 Agent，隨後再透過指令進行修正。欲深入了解評測細節或查看完整排名，可參閱 [Agent Arena 排行榜](https://arena.ai/leaderboard/agent) 或其 [方法論部落格](https://arena.ai/blog/agent-arena-methodology)。

## 媒體內容

**GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10（淨改善幅度為 +4.4%），表現逼近 Claude Opus 4.8，且大幅領先其他開源模型。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| 1. Claude Fable 5 (High)* | +14.2% |
| 2. Claude Opus 4.8 (Thinking) | +9.0% |
| 3. GPT-5.5 (xHigh) | +8.3% |
| 4. Claude Opus 4.7 | +8.1% |
| 5. Claude Opus 4.7 (Thinking) | +8.1% |
| 6. GPT-5.5 (High) | +7.8% |
| 7. GPT-5.5 | +6.7% |
| 8. Claude Opus 4.6 | +6.7% |
| 9. GPT-5.4 (High) | +6.5% |
| 10. GLM-5.2 (Max) | +4.4% |
| 11. Claude Opus 4.8 | +3.6% |
| 12. Claude Sonnet 4.6 | +3.2% |
| 13. GLM-5.1 | +2.7% |
| 14. DeepSeek-V4 Pro | +0.1% |
| 15. Gemini-3.5 Flash | 0.0% |
| 16. Kimi-K2.6 | -0.5% |
| 17. Gemini-3.1 Pro | -0.8% |
| 18. DeepSeek-V4 Flash | -1.2% |
| 19. MiniMax-M3 | -2.8% |
| 20. Qwen-3.6 Plus | -4.2% |
| 21. Grok Build 0.1 | -6.2% |
| 22. Grok-4.3 (High) | -7.2% |
| 23. MiniMax-M2.7 | -7.8% |
| 24. Gemini-3 Flash | -8.5% |
| 25. Nemotron 3 Ultra | -8.7% |
| 26. Gemma-4 31B IT | -12.7% |
| 27. Grok-4.3 | -15.8% |

**GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10，其在確認任務成功率與用戶好評度上取得顯著進步，但在可控性（Steerability）上有所下滑（-6.0%）。**

**數據表**

|   | Rank | Net Improvement |
| --- | --- | --- |
| Overall | 10 | +4.4% |
| Confirmed Success | 3 | +9.4% |
| Praise vs Complaint | 3 | +14.9% |
| Steerability | 20 | -6.0% |
| Bash Recovery | 16 | +1.7% |
| Tool Hallucination | 1 | +1.9% |

**GLM-5.2 (Max) 在 Agent Arena 排行榜中名列第 10，相較於 GLM-5.1（排名第 13）有顯著提升，特別是在「確認成功」與「讚賞與抱怨」兩項指標上進步最為明顯，但在「可控性」上有所折衷。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| GLM-5.2 | +4.4% |
| GLM-5.1 | 約+1.5% |
| GLM-5.2 | +14.9% |
| GLM-5.1 | 約+3.0% |
| GLM-5.2 | -6.0% |
| GLM-5.1 | +1.2% |
| GLM-5.2 | +1.9% |
| GLM-5.1 | 約+1.5% |
| GLM-5.2 | +1.7% |
| GLM-5.1 | 約+1.5% |
| GLM-5.2 | +9.4% |
| GLM-5.1 | 約+4.0% |

## 標籤

Benchmark, GLM, Agent Arena, Zai