LatentUM透過共享語意潛在空間實現跨模態推理，消除像素解碼延遲

机器之心 JIQIZHIXIN

♥35🔁 10

𝕏 (Twitter)🔥🔥2026年4月23日

AI 中文摘要Claude 生成

LatentUM透過共享語意潛在空間實現跨模態推理，消除像素解碼延遲。

上海交通大學、清華大學與加州大學聖地牙哥分校研究團隊推出「LatentUM」，一個統一模型，將圖像、文字與動作置於共享「語意潛在空間」中處理，避免傳統模型需不斷生成完整圖像的低效步驟。此模型在視覺規劃任務上達到最先進水準，支持自我修正圖像生成，並能模擬未來視覺狀態，同時更高效。

論文與資源發布
論文《LatentUM: Unleashing the Potential of Interleaved Cross‑Modal Reasoning via a Latent‑Space Unified Model》於2026年4月3日上傳arXiv（https://arxiv.org/pdf/2604.02097），程式碼開源於GitHub（https://github.com/SJTU-DENG-Lab/LatentUM），模型權重置於HuggingFace（https://huggingface.co/collections/SJTU-DENG-Lab/latentum）。機器之心JIQIZHIXIN報導強調，此模型讓AI同時以圖像與文字思考，無翻譯延遲。

現有統一模型的局限
現有統一模型（UMs）主要聚焦視覺生成任務，如圖像生成、編輯與影片生成，但表現落後專門模型，且無法展現UMs真正價值。這些模型使用理解與生成的分離視覺表示，需像素解碼作為橋樑，此步驟引入不必要的編解碼偏差（codec bias）與跨模態錯位，導致推理任務指令遵循能力下降，尤其在需密集視覺思考的問題上無效且低效。論文明確批判，此設計無法處理如逐步視覺推理解決視覺規劃、透過自我反思改善生成，或基於動作干預的世界建模等高價值任務，這些任務偏好語意正確性而非像素忠實度。

LatentUM核心設計
LatentUM將所有模態嵌入共享語意潛在空間，消除像素空間中介，直接支援彈性交錯跨模態推理與生成。

共享語意潛在空間：文字與視覺token共享同一空間，讓模型直接在其生成視覺內容上推理。
MBAQ（Model Behavior Aligned Quantization）：模型行為對齊量化，將CLIP特徵離散化為離散視覺語意token，目標保留視覺語言模型（VLM）的預測能力，而非像素重建，確保生成視覺token可被模型自身解釋。
MoME（Mixture-of-Modal Experts）：模態專家混合架構，為各模態分配專屬Transformer區塊參數，透過自注意力實現跨模態互動，減緩梯度中跨模態干擾。
自回歸Transformer：以簡單的下一個token預測目標實作，繼承現成VLM的視覺理解能力，透過參數初始化。
獨立像素解碼器：額外訓練DiT（Diffusion Transformer）解碼器，用於需像素視覺化的任務，如文字到圖像生成，保持潛在空間聚焦語意。

此設計不僅提升計算效率，還大幅減輕編解碼偏差，強化跨模態對齊。

訓練與效能表現
LatentUMBase基於InternVL3.5-4B架構與預訓練權重，其視覺分支在3200萬文字到圖像配對上訓練，在標準視覺理解與生成基準上與現有統一模型具競爭力。後續後訓練激活交錯跨模態推理能力，產生任務專屬變體：

在「Visual Spatial Planning」基準上達到統一模型中最先進表現。
在GenEval與GenEval2上透過自我反思推升視覺生成極限。
支持世界建模，在共享語意潛在空間預測未來視覺狀態為離散語意token，展現環境動態的語意連貫預測。

關鍵功能展示
GitHub提供多項示範，證明LatentUM在實際應用中的優勢。

圖像理解：載入「asset/blue_apple.png」，詢問「Describe this image.」，模型直接回應。
圖像生成：輸入「a photo of a cute dog」，結合LatentUM-Base與像素解碼器生成並儲存「generated.png」。
視覺空間規劃：使用「LatentUM-Vis-Plan」在「FrozenLake」環境（如「asset/frozenlake_level6_000.png」）執行最多16步規劃，每步最多10個文字token，參數如temperature=0.7、top_k=50、top_p=0.95，輸出GIF至「asset/frozenlake_demo」，示範前進與右轉。
世界建模：使用「LatentUM-WM」預測動作條件下的未來軌跡，如前進與右轉GIF（「asset/trajectory_0.gif」與「asset/trajectory_1.gif」）。
交錯SFT範例：文件「interleaved_sft_example.md」詳述JSONL資料格式與「asset/frozenlake_interleaved_example/」訓練樣本。

可用模型變體
HuggingFace提供多款預訓練權重：

LatentUM_Base（基於InternVL3.5-4B）：理解+生成基礎模型（https://huggingface.co/SJTU-DENG-Lab/LatentUM-Base）。
LatentUM_Vis-Plan：微調視覺空間規劃。
LatentUM_WM：微調動作條件世界建模。
LatentUM_GenEval：微調GenEval，含自我反思+像素獎勵。
Pixel Decoder（基於stable-diffusion-3-medium）：像素渲染解碼器。

安裝只需git clone https://github.com/SJTU-DENG-Lab/LatentUM.git、cd LatentUM、uv sync，即可執行Python範例。

作者與致謝
作者包括Jiachun Jin、Zetong Zhou（上海交通大學）、Xiao Yang、Jun Zhu（清華大學）、Hao Zhang（UCSD）、Pengfei Liu、Zhijie Deng（上海交通大學）。專案採用Apache 2.0授權，致謝InternVL、BLIP3o、UniTok與Stable Diffusion 3.5開源貢獻。引用格式為arXiv:2604.02097（2026年）。

技術趨勢意涵
LatentUM挑戰現有統一模型的像素依賴，轉向語意導向推理，預示多模態AI從生成工具蛻變為具反思與規劃能力的系統。此進展特別適用於需逐步視覺思考的實務場景，如機器人導航或動態環境模擬，論文強調其在語意正確性上的優勢，間接批判像素忠實度過度追求的產業慣性。透過開源資源，LatentUM降低進入門檻，加速跨模態推理在Agent與世界建模的應用。

What if an AI could think in pictures and words simultaneously, without the usual translation lag?

Researchers from Shanghai Jiao Tong U, Tsinghua U, and UCSD present LatentUM.

They built a single model that processes images, text, and actions all in one shared "semantic… pic.twitter.com/N2xNnSQs4l
— 机器之心 JIQIZHIXIN (@jiqizhixin) April 22, 2026

延伸閱讀