Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型,實現視覺化程式撰寫與 Agent 工作流整合
Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型,實現視覺化程式撰寫與 Agent 工作流整合。
GLM-5V-Turbo 是 Z.AI 首款專為視覺化程式開發設計的基礎模型,具備原生多模態處理能力,能直接理解圖像、影片及設計草稿,並將其轉化為可執行的程式碼,實現「看見螢幕即撰寫程式」的目標。
核心能力與定位
GLM-5V-Turbo 不僅能處理多模態輸入,更針對 Agent 工作流進行深度優化,能與 Claude Code 或 OpenClaw 等 Agent 無縫協作,完成「環境理解 → 規劃行動 → 執行任務」的完整閉環。其主要技術規格與能力包括:
- 多模態輸入支援:原生支援影片、圖像、文字與文件格式。
- 長上下文與輸出:支援 200K 的 Context Window 及 128K 的最大輸出 token。
- Agent 協作:具備強大的工具呼叫能力,並支援串流輸出以提升使用者互動體驗。
- 智慧快取:內建 Context Caching 機制,優化長對話中的效能表現。
效能表現與基準測試
該模型在多個關鍵領域展現了領先效能,且在維持視覺能力的同時,並未犧牲純文字程式開發的表現:
- 多模態與 Agent 任務:在設計草稿重構、視覺程式碼生成、多模態檢索與問答,以及視覺探索等基準測試中表現優異。在 AndroidWorld 與 WebVoyager 等評估真實 GUI 環境操作能力的測試中,亦有強勁表現。
- 純文字程式開發:在 CC-Bench-V2 的後端、前端與程式庫探索三大核心基準測試中,GLM-5V-Turbo 保持了穩定效能,證明引入視覺能力並未導致文字推理能力的退化。
技術架構升級
GLM-5V-Turbo 之所以能在較小的模型參數下實現領先效能,歸功於四個層面的系統性升級:
- 原生多模態融合:從預訓練到後訓練階段持續強化視覺與文字的對齊,並採用新一代 CogViT 視覺編碼器與推理友善的 MTP 架構,提升理解與推理效率。
- 多任務聯合強化學習:在 RL 階段進行超過 30 種任務類型的聯合優化,涵蓋 STEM、定位、影片、GUI Agent 與程式開發 Agent,顯著提升感知與執行能力。
- Agent 數據建構:針對 Agent 數據稀缺與驗證困難的問題,建立多層次、可控且可驗證的數據系統,並在預訓練中注入 Agent 元能力,強化行動預測與執行。
- 多模態工具鏈擴展:新增框選、截圖與網頁閱讀等工具,將 Agent 能力從純文字擴展至視覺互動,支援完整的感知-規劃-執行循環。
應用場景與擴展
除了視覺化程式開發,GLM-5V-Turbo 還透過整合 GLM-OCR 與 GLM-Image 等專用模型,提供多項官方 Skills,支援更廣泛的 Agent 場景,包括:
- 影像描述 (Image Captioning) 與視覺定位 (Visual Grounding)。
- 基於文件的寫作與履歷篩選。
- 提示詞生成 (Prompt Generation) 與網頁編碼。
Introducing GLM-5V-Turbo: Vision Coding Model
— Z.ai (@Zai_org) April 1, 2026
- Native Multimodal Coding: Natively understands multimodal inputs including images, videos, design drafts, and document layouts.
- Balanced Visual and Programming Capabilities: Achieves leading performance across core benchmarks for… pic.twitter.com/J7JtMY6wCd
The model can understand design drafts, screenshots, and web interfaces to generate complete, runnable code, truly achieving the goal of "seeing the screen and writing the code." pic.twitter.com/PDn13wal4t
— Z.ai (@Zai_org) April 1, 2026
GLM-5V-Turbo leads in benchmarks for design draft reconstruction, visual code generation, multimodal retrieval and QA, and visual exploration. It also performs exceptionally well on AndroidWorld and WebVoyager, which measure control capabilities in real GUI environments. pic.twitter.com/cni1UaHJiD
— Z.ai (@Zai_org) April 1, 2026
Regarding pure-text coding, GLM-5V-Turbo maintains stable performance across three core benchmarks of CC-Bench-V2 (Backend, Frontend, and Repo Exploration), proving that the introduction of visual capabilities does not degrade text-based reasoning. pic.twitter.com/BuwLZaIG0T
— Z.ai (@Zai_org) April 1, 2026
The leading performance of GLM-5V-Turbo stems from systematic upgrades across four levels:
— Z.ai (@Zai_org) April 1, 2026
Native Multimodal Fusion: Deep fusion of text and vision begins at pre-training, with multimodal collaborative optimization during post-training. We developed the next-generation CogViT…
