# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Z.ai (@Zai_org) · 平台：X (Twitter) · 日期：2026-04-02

> 原始來源：https://x.com/zai_org/status/2039371126984360085

## 中文摘要

Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型，實現視覺化程式撰寫與 Agent 工作流整合。

GLM-5V-Turbo 是 Z.AI 首款專為視覺化程式開發設計的基礎模型，具備原生多模態處理能力，能直接理解圖像、影片及設計草稿，並將其轉化為可執行的程式碼，實現「看見螢幕即撰寫程式」的目標。

**核心能力與定位**
GLM-5V-Turbo 不僅能處理多模態輸入，更針對 Agent 工作流進行深度優化，能與 Claude Code 或 OpenClaw 等 Agent 無縫協作，完成「環境理解 → 規劃行動 → 執行任務」的完整閉環。其主要技術規格與能力包括：
- **多模態輸入支援**：原生支援影片、圖像、文字與文件格式。
- **長上下文與輸出**：支援 200K 的 Context Window 及 128K 的最大輸出 token。
- **Agent 協作**：具備強大的工具呼叫能力，並支援串流輸出以提升使用者互動體驗。
- **智慧快取**：內建 Context Caching 機制，優化長對話中的效能表現。

**效能表現與基準測試**
該模型在多個關鍵領域展現了領先效能，且在維持視覺能力的同時，並未犧牲純文字程式開發的表現：
- **多模態與 Agent 任務**：在設計草稿重構、視覺程式碼生成、多模態檢索與問答，以及視覺探索等基準測試中表現優異。在 AndroidWorld 與 WebVoyager 等評估真實 GUI 環境操作能力的測試中，亦有強勁表現。
- **純文字程式開發**：在 CC-Bench-V2 的後端、前端與程式庫探索三大核心基準測試中，GLM-5V-Turbo 保持了穩定效能，證明引入視覺能力並未導致文字推理能力的退化。

**技術架構升級**
GLM-5V-Turbo 之所以能在較小的模型參數下實現領先效能，歸功於四個層面的系統性升級：
- **原生多模態融合**：從預訓練到後訓練階段持續強化視覺與文字的對齊，並採用新一代 CogViT 視覺編碼器與推理友善的 MTP 架構，提升理解與推理效率。
- **多任務聯合強化學習**：在 RL 階段進行超過 30 種任務類型的聯合優化，涵蓋 STEM、定位、影片、GUI Agent 與程式開發 Agent，顯著提升感知與執行能力。
- **Agent 數據建構**：針對 Agent 數據稀缺與驗證困難的問題，建立多層次、可控且可驗證的數據系統，並在預訓練中注入 Agent 元能力，強化行動預測與執行。
- **多模態工具鏈擴展**：新增框選、截圖與網頁閱讀等工具，將 Agent 能力從純文字擴展至視覺互動，支援完整的感知-規劃-執行循環。

**應用場景與擴展**
除了視覺化程式開發，GLM-5V-Turbo 還透過整合 GLM-OCR 與 GLM-Image 等專用模型，提供多項官方 Skills，支援更廣泛的 Agent 場景，包括：
- 影像描述 (Image Captioning) 與視覺定位 (Visual Grounding)。
- 基於文件的寫作與履歷篩選。
- 提示詞生成 (Prompt Generation) 與網頁編碼。

## 標籤

VLM, Agent, 新產品, Z.AI