# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Z.ai (@Zai_org) · 平台：X (Twitter) · 日期：2026-06-17

> 原始來源：https://x.com/Zai_org/status/2066938937344495629

## 中文摘要

Z.ai 發布旗艦模型 GLM-5.2，具備 1M token 上下文視窗並強化 Agentic 程式開發能力。

Z.ai 於 2026 年 6 月 17 日正式推出 [GLM-5.2](http://z.ai/blog/glm-5.2)，這款旗艦模型專為長跨度（long-horizon）任務設計，提供 1M token 的穩定上下文視窗，並以 MIT 授權釋出開放權重。該模型在程式撰寫、工具呼叫與複雜推理任務上均有顯著提升，並支援靈活的推理努力程度（reasoning effort）控制，讓使用者能在效能與運算成本間取得平衡。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/103f494c044a153a.jpg)
> 根據官方推文，新一代模型 GLM-5.2 在程式設計、工具使用、推理和通用知識等多個領域的基準測試中，皆以顯著優勢領先其前代模型 GLM-5.1。

**核心技術與架構創新**
- **IndexShare 架構**：透過在每四層稀疏注意力層（sparse attention layers）中重複使用同一個索引器，將 1M 上下文長度下的每 token FLOPs 降低了 2.9 倍。
- **MTP 優化**：改進了用於推測解碼（speculative decoding）的 MTP 層，使接受長度提升達 20%。
- **Agentic RL 與防駭機制**：針對長跨度任務，採用基於 Critic 的 PPO 公式，並引入防駭模組，透過規則過濾與 LLM 判斷來防止程式開發 Agent 出現獎勵劫持（reward hacking）。
- **推論引擎優化**：針對 1M 上下文進行了細粒度記憶體管理、核心優化及 CPU 端快取管理，以解決長文本推論的瓶頸。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/cf99dba0f6386b7b.png)
> GLM-5.2 藉由 IndexShare 技術在 1024K Token 位置將 FLOPs 降低達 2.9 倍，並透過端到端 TV 損失等優化將 MTP 接受長度提升 20% 至 5.47。

**長跨度工程能力**
GLM-5.2 在多項長跨度程式開發基準測試中表現優異，成為目前最強的開源模型：
- **FrontierSWE**：僅落後 Claude Opus 4.8 約 1%，超越 GPT-5.5 與 Claude Opus 4.7。
- **PostTrainBench**：表現優於 Claude Opus 4.7 與 GPT-5.5，僅次於 Claude Opus 4.8。
- **實際應用**：該模型在大型專案接管、跨模組除錯及符合生產級工程標準（如嚴格遵守 `CLAUDE.md` 或 lint 規則）方面展現了極高的穩定性。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/db8a487bb899f1d6.jpg)
> GLM-5.2 在 FrontiersSWE、PostTrainBench 與 SWE-Marathon 等長任務評測中展現強勁實力，表現逼近 Opus 4.8 並在多數項目超越 GPT-5.5 與 Gemini 3.1 Pro。

**開發者資源與使用方式**
- **模型權重**：可於 [Hugging Face](http://huggingface.co/zai-org/GLM-5.2) 下載。
- **API 呼叫**：API 定價與 GLM-5.1 相同，支援透過 `cURL` 或官方 SDK 進行整合。
- **快速上手（Python SDK 範例）**：
```python
from zai import ZaiClient

client = ZaiClient(api_key="your-api-key")

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "system", "content": "You are a senior full-stack software engineer."},
        {"role": "user", "content": "Build a blog website using React + Node.js."}
    ],
    thinking={"type": "enabled"},
    reasoning_effort="max",
    max_tokens=4096,
    temperature=1.0,
)
print(response.choices[0].message)
```

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/c13448b929d7dd1c.jpg)
> 根據評測結果，GLM-5.2 在 Agent 編碼任務上的表現相較於前代 GLM-5.1 有顯著提升，並透過提供不同的思考強度（Effort Level）來靈活平衡性能與 Token 輸出效率。

更多詳細資訊與技術文件可參考 [Z.ai 官方文件](http://docs.z.ai/guides/llm/glm-5.2)。

## 媒體內容

**根據評測結果，GLM-5.2 在 Agent 編碼任務上的表現相較於前代 GLM-5.1 有顯著提升，並透過提供不同的思考強度（Effort Level）來靈活平衡性能與 Token 輸出效率。**

**數據表**

|   | Non-Thinking | High | Max |
| --- | --- | --- | --- |
| GLM-5.2 | (35k, 63%) | (44k, 72%) | (84k, 74.5%) |
| GLM-5.1 | (32k, 53%) |  | (45k, 58%) |
| Claude Opus 4.8 |  | (40k, 78%) | (88k, 78%) |
| Claude Opus 4.7 |  | (30k, 68%) | (49k, 71.5%) |

**根據官方推文，新一代模型 GLM-5.2 在程式設計、工具使用、推理和通用知識等多個領域的基準測試中，皆以顯著優勢領先其前代模型 GLM-5.1。**

**數據表**

|   | GLM-5.2 | GLM-5.1 | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| --- | --- | --- | --- | --- | --- |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 | 58.6 | 54.2 |
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 | 84.0 | 74.0 |
| NL2Repo | 48.9 | 42.7 | 69.7 | 50.7 | 33.4 |
| DeepSWE | 46.2 | 18.0 | 58.0 | 70.0 | 10.0 |
| ProgramBench | 63.7 | 50.9 | 71.9 | 70.8 | 39.5 |
| MCP-Atlas | 77.0 | 71.8 | 77.8 | 75.3 | 69.2 |
| Tool-Decathlon | 48.2 | 40.7 | 59.9 | 55.6 | 48.8 |
| Humanity's Last Exam | 54.7 (w/ Tools) / 40.5 | 52.3 (w/ Tools) / 31.0 | 57.9 (w/ Tools) / 49.8 | 52.2 (w/ Tools) / 41.4 | 51.4 (w/ Tools) / 45.0 |

**GLM-5.2 在 FrontiersSWE、PostTrainBench 與 SWE-Marathon 等長任務評測中展現強勁實力，表現逼近 Opus 4.8 並在多數項目超越 GPT-5.5 與 Gemini 3.1 Pro。**

**數據表（1）FrontiersSWE (Dominance) Max 20 Hrs**

| 項目 | 數值 |
| --- | --- |
| Opus 4.8 | 75.1% |
| GLM-5.2 | 74.4% |
| GPT-5.5 | 72.6% |
| Opus 4.7 | 63.0% |
| Gemini 3.1 Pro | 39.6% |

**數據表（2）PostTrainBench Max 10 Hrs**

| 項目 | 數值 |
| --- | --- |
| Opus 4.8 | 37.2% |
| GLM-5.2 | 34.3% |
| Opus 4.7 | 28.6% |
| GPT-5.5 | 25.0% |
| Gemini 3.1 Pro | 21.6% |

**數據表（3）SWE-Marathon Max 10 Hrs**

| 項目 | 數值 |
| --- | --- |
| Opus 4.8 | 26.0% |
| Opus 4.7 | 16.0% |
| GLM-5.2 | 13.0% |
| GPT-5.5 | 12.0% |
| Gemini 3.1 Pro | 4.0% |

**GLM-5.2 藉由 IndexShare 技術在 1024K Token 位置將 FLOPs 降低達 2.9 倍，並透過端到端 TV 損失等優化將 MTP 接受長度提升 20% 至 5.47。**

**數據表（1）Lower FLOPs with IndexShare**

|   | Token Position 32K | Token Position 1024K |
| --- | --- | --- |
| GLM-5.1 | 0.1 | 0.68 |
| GLM-5.2 | 0.1 | 0.23 |

**數據表（2）Higher MTP Acceptance Length**

| 項目 | 數值 |
| --- | --- |
| Baseline | 4.56 |
| +IndexShare +KVShare | 5.10 |
| +Rejection Sampling | 5.29 |
| +End-to-end TV Loss | 5.47 |

## 標籤

LLM, 開源專案, Z.ai, GLM