← 返回首頁

Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型,實現視覺化程式撰寫與 Agent 工作流整合

Z.ai
Z.ai
@Zai_org
5,370🔁 605
𝕏 (Twitter)🔥🔥🔥
AI 中文摘要Claude 生成

Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型,實現視覺化程式撰寫與 Agent 工作流整合。

GLM-5V-Turbo 是 Z.AI 首款專為視覺化程式開發設計的基礎模型,具備原生多模態處理能力,能直接理解圖像、影片及設計草稿,並將其轉化為可執行的程式碼,實現「看見螢幕即撰寫程式」的目標。

核心能力與定位
GLM-5V-Turbo 不僅能處理多模態輸入,更針對 Agent 工作流進行深度優化,能與 Claude Code 或 OpenClaw 等 Agent 無縫協作,完成「環境理解 → 規劃行動 → 執行任務」的完整閉環。其主要技術規格與能力包括:

  • 多模態輸入支援:原生支援影片、圖像、文字與文件格式。
  • 長上下文與輸出:支援 200K 的 Context Window 及 128K 的最大輸出 token。
  • Agent 協作:具備強大的工具呼叫能力,並支援串流輸出以提升使用者互動體驗。
  • 智慧快取:內建 Context Caching 機制,優化長對話中的效能表現。

效能表現與基準測試
該模型在多個關鍵領域展現了領先效能,且在維持視覺能力的同時,並未犧牲純文字程式開發的表現:

  • 多模態與 Agent 任務:在設計草稿重構、視覺程式碼生成、多模態檢索與問答,以及視覺探索等基準測試中表現優異。在 AndroidWorld 與 WebVoyager 等評估真實 GUI 環境操作能力的測試中,亦有強勁表現。
  • 純文字程式開發:在 CC-Bench-V2 的後端、前端與程式庫探索三大核心基準測試中,GLM-5V-Turbo 保持了穩定效能,證明引入視覺能力並未導致文字推理能力的退化。

技術架構升級
GLM-5V-Turbo 之所以能在較小的模型參數下實現領先效能,歸功於四個層面的系統性升級:

  • 原生多模態融合:從預訓練到後訓練階段持續強化視覺與文字的對齊,並採用新一代 CogViT 視覺編碼器與推理友善的 MTP 架構,提升理解與推理效率。
  • 多任務聯合強化學習:在 RL 階段進行超過 30 種任務類型的聯合優化,涵蓋 STEM、定位、影片、GUI Agent 與程式開發 Agent,顯著提升感知與執行能力。
  • Agent 數據建構:針對 Agent 數據稀缺與驗證困難的問題,建立多層次、可控且可驗證的數據系統,並在預訓練中注入 Agent 元能力,強化行動預測與執行。
  • 多模態工具鏈擴展:新增框選、截圖與網頁閱讀等工具,將 Agent 能力從純文字擴展至視覺互動,支援完整的感知-規劃-執行循環。

應用場景與擴展
除了視覺化程式開發,GLM-5V-Turbo 還透過整合 GLM-OCR 與 GLM-Image 等專用模型,提供多項官方 Skills,支援更廣泛的 Agent 場景,包括:

  • 影像描述 (Image Captioning) 與視覺定位 (Visual Grounding)。
  • 基於文件的寫作與履歷篩選。
  • 提示詞生成 (Prompt Generation) 與網頁編碼。