# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Arena.ai (@arena) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/arena/status/2066957802741043641

## 中文摘要

GLM-5.2 (Max) 在 Code Arena: Frontend 評測中取得第二名，並大幅超越 Claude Opus 4.7 (Thinking)。

**評測表現**
由 Arena.ai 發布的最新數據顯示，GLM-5.2 (Max) 在「Code Arena: Frontend」領域表現亮眼，不僅位居總榜第二，更成功推動了該領域的帕累托前沿（Pareto Frontier）。其關鍵數據與排名如下：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/41b2d00884f43532.jpg)
> 在 Code Arena: Frontend 基準測試中，GLM-5.2 (Max) 以 1,595 分位居第二，超越 Claude Opus 4.7 (Thinking) 達 29 分，僅次於 Claude Fable 5 (High)，並在開源模型中大幅領先 Kimi-K2.6 與 MiniMax-M3。

- 在 Code Arena: Frontend 總榜中排名第二，領先 Claude Opus 4.7 (Thinking) 達 29 分，僅次於 Fable 5。
- 在「React」子榜單排名第二，「HTML」子榜單排名第四。
- 在多個專業子類別中表現卓越，包括品牌與行銷、參考基準設計、資料與分析、消費性產品、遊戲以及模擬。
- 該模型被認定為目前最佳的開源模型，在效能上大幅領先 Kimi-K2.6 與 Minimax-M3。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/7a4256f6dea1793b.jpg)
> GLM-5.2 (Max) 在 Code Arena: Frontend 基準測試中以 1,595 分位居開放權重模型第一名，顯著領先 GLM-5.1 與 Kimi-K2.6 等模型。

**技術應用場景**
Code Arena: Frontend 的評測機制專注於「Agentic 程式開發」任務，要求模型處理真實使用者在建構應用程式與網站（HTML 與 React）時所面臨的挑戰。GLM-5.2 (Max) 透過這些實際場景的驗證，證明了其在處理前端開發任務上的實用性。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ef241e20ca1b21ad.jpg)
> GLM-5.2 (Max) 成功推動了 Code Arena: Frontend 的 Pareto 邊界，以 1595 的高分與每百萬 token $3.65 的價格位居效能與成本平衡的領先地位，整體排名僅次於 Claude Fable 5。

**綜合能力分析**
儘管 GLM-5.2 (Max) 在「Text Arena」的整體排名維持在第 25 名，與前代 GLM-5.1 持平，但深入分析顯示其在特定領域有顯著成長：
- 子類別進步：在「Expert Arena」與「多輪對話」項目中表現提升。
- 職業應用領域：在生命科學、物理與社會科學、創意寫作以及醫學與醫療保健等專業領域展現了更強的處理能力。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/ce656fcaca0b24ea.jpg)
> 此雷達圖比較了 GLM-5.2 (Max) 與 GLM-5.1 在 Text Arena 各個細分與職業類別（如程式設計、創意寫作、醫學與醫療保健等）的評分表現。

如需查看完整的排行榜細節與各項評測數據，請參考 [Arena.ai 排行榜](http://arena.ai/leaderboard) 頁面。

## 媒體內容

**在 Code Arena: Frontend 基準測試中，GLM-5.2 (Max) 以 1,595 分位居第二，超越 Claude Opus 4.7 (Thinking) 達 29 分，僅次於 Claude Fable 5 (High)，並在開源模型中大幅領先 Kimi-K2.6 與 MiniMax-M3。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| Claude Fable 5 (High)* | 1,654 |
| GLM-5.2 (Max) | 1,595 |
| Claude Opus 4.7 (Thinking) | 1,566 |
| Claude Opus 4.8 (Thinking) | 1,561 |
| Claude Opus 4.7 | 1,556 |
| Claude Opus 4.6 (Thinking) | 1,541 |
| Claude Opus 4.8 | 1,541 |
| Claude Opus 4.6 | 1,538 |
| GLM-5.1 | 1,531 |
| Qwen-3.7 Max | 1,531 |
| Claude Sonnet 4.6 | 1,522 |
| Kimi-K2.6 | 1,513 |
| MiniMax-M3 | 1,511 |
| Muse Spark | 1,507 |
| Gemini-3.5 Flash | 1,506 |

**GLM-5.2 (Max) 在 Code Arena: Frontend 基準測試中以 1,595 分位居開放權重模型第一名，顯著領先 GLM-5.1 與 Kimi-K2.6 等模型。**

**數據表**

| 項目 | 數值 |
| --- | --- |
| GLM-5.2 (Max) | 1,595 |
| GLM-5.1 | 1,531 |
| Kimi-K2.6 | 1,513 |
| Kimi-K2.7 Code | 1,478 |
| MiMo-V2.5 Pro | 1,470 |
| DeepSeek-V4 Pro (Thinking) | 1,459 |
| GLM-4.7 | 1,440 |
| GLM-5 | 1,435 |
| MiMo-V2.5 | 1,433 |
| Kimi-K2.5 (Thinking) | 1,430 |
| Kimi-K2.5 Instant | 1,408 |
| Qwen-3.5 397B A17B | 1,394 |
| MiniMax-M2.7 | 1,394 |
| MiniMax-M2.1 | 1,392 |
| MiniMax-M2.5 | 1,382 |

**此雷達圖比較了 GLM-5.2 (Max) 與 GLM-5.1 在 Text Arena 各個細分與職業類別（如程式設計、創意寫作、醫學與醫療保健等）的評分表現。**

**數據表**

|   | GLM-5.2 (Max) | GLM-5.1 |
| --- | --- | --- |
| Text: Overall | 約1475 | 約1470 |
| Text: Coding | 約1515 | 約1515 |
| Text: Creative Writing | 約1455 | 約1455 |
| Text: Expert | 約1450 | 約1480 |
| Text: Hard Prompts | 約1460 | 約1460 |
| Text: Instruction Following | 約1455 | 約1455 |
| Text: Longer Query | 約1450 | 約1455 |
| Text: Multi-Turn | 約1445 | 約1455 |
| Occupational: Entertainment, Sports, & Media | 約1435 | 約1445 |
| Occupational: Life, Physical, & Social Science | 約1450 | 約1440 |
| Occupational: Mathematical | 約1450 | 約1445 |
| Occupational: Medicine & Healthcare | 約1465 | 約1450 |
| Occupational: Software & IT Services | 約1490 | 約1490 |
| Occupational: Writing, Literature, & Language | 約1465 | 約1465 |

**GLM-5.2 (Max) 成功推動了 Code Arena: Frontend 的 Pareto 邊界，以 1595 的高分與每百萬 token $3.65 的價格位居效能與成本平衡的領先地位，整體排名僅次於 Claude Fable 5。**

**數據表（1）Pareto Frontier 標註點**

| 項目 | X | Y |
| --- | --- | --- |
| claude-fable-5 | x: ~$50.00 | y: ~1650 |
| glm-5.2 (max) | x: $3.65 | y: 1595 |
| minimax-m3 | x: ~$2.50 | y: ~1530 |
| mimo-v2.5-pro | x: ~$0.80 | y: ~1470 |
| mimo-v2.5 | x: ~$0.25 | y: ~1440 |
| granite-4.1-8b | x: ~$0.10 | y: ~1200 |

**數據表（2）其他標註點**

| 項目 | X | Y |
| --- | --- | --- |
| qwen3.7-max-20260517 | x: ~$4.00 | y: ~1480 |

## 標籤

Benchmark, GLM, Claude, Arena.ai