LatentUM透過共享語意潛在空間實現跨模態推理,消除像素解碼延遲
LatentUM透過共享語意潛在空間實現跨模態推理,消除像素解碼延遲。
上海交通大學、清華大學與加州大學聖地牙哥分校研究團隊推出「LatentUM」,一個統一模型,將圖像、文字與動作置於共享「語意潛在空間」中處理,避免傳統模型需不斷生成完整圖像的低效步驟。此模型在視覺規劃任務上達到最先進水準,支持自我修正圖像生成,並能模擬未來視覺狀態,同時更高效。
論文與資源發布
論文《LatentUM: Unleashing the Potential of Interleaved Cross‑Modal Reasoning via a Latent‑Space Unified Model》於2026年4月3日上傳arXiv(https://arxiv.org/pdf/2604.02097),程式碼開源於GitHub(https://github.com/SJTU-DENG-Lab/LatentUM),模型權重置於HuggingFace(https://huggingface.co/collections/SJTU-DENG-Lab/latentum)。機器之心JIQIZHIXIN報導強調,此模型讓AI同時以圖像與文字思考,無翻譯延遲。
現有統一模型的局限
現有統一模型(UMs)主要聚焦視覺生成任務,如圖像生成、編輯與影片生成,但表現落後專門模型,且無法展現UMs真正價值。這些模型使用理解與生成的分離視覺表示,需像素解碼作為橋樑,此步驟引入不必要的編解碼偏差(codec bias)與跨模態錯位,導致推理任務指令遵循能力下降,尤其在需密集視覺思考的問題上無效且低效。論文明確批判,此設計無法處理如逐步視覺推理解決視覺規劃、透過自我反思改善生成,或基於動作干預的世界建模等高價值任務,這些任務偏好語意正確性而非像素忠實度。
LatentUM核心設計
LatentUM將所有模態嵌入共享語意潛在空間,消除像素空間中介,直接支援彈性交錯跨模態推理與生成。
- 共享語意潛在空間:文字與視覺token共享同一空間,讓模型直接在其生成視覺內容上推理。
- MBAQ(Model Behavior Aligned Quantization):模型行為對齊量化,將CLIP特徵離散化為離散視覺語意token,目標保留視覺語言模型(VLM)的預測能力,而非像素重建,確保生成視覺token可被模型自身解釋。
- MoME(Mixture-of-Modal Experts):模態專家混合架構,為各模態分配專屬Transformer區塊參數,透過自注意力實現跨模態互動,減緩梯度中跨模態干擾。
- 自回歸Transformer:以簡單的下一個token預測目標實作,繼承現成VLM的視覺理解能力,透過參數初始化。
- 獨立像素解碼器:額外訓練DiT(Diffusion Transformer)解碼器,用於需像素視覺化的任務,如文字到圖像生成,保持潛在空間聚焦語意。
此設計不僅提升計算效率,還大幅減輕編解碼偏差,強化跨模態對齊。
訓練與效能表現
LatentUMBase基於InternVL3.5-4B架構與預訓練權重,其視覺分支在3200萬文字到圖像配對上訓練,在標準視覺理解與生成基準上與現有統一模型具競爭力。後續後訓練激活交錯跨模態推理能力,產生任務專屬變體:
- 在「Visual Spatial Planning」基準上達到統一模型中最先進表現。
- 在GenEval與GenEval2上透過自我反思推升視覺生成極限。
- 支持世界建模,在共享語意潛在空間預測未來視覺狀態為離散語意token,展現環境動態的語意連貫預測。
關鍵功能展示
GitHub提供多項示範,證明LatentUM在實際應用中的優勢。
- 圖像理解:載入「asset/blue_apple.png」,詢問「Describe this image.」,模型直接回應。
- 圖像生成:輸入「a photo of a cute dog」,結合LatentUM-Base與像素解碼器生成並儲存「generated.png」。
- 視覺空間規劃:使用「LatentUM-Vis-Plan」在「FrozenLake」環境(如「asset/frozenlake_level6_000.png」)執行最多16步規劃,每步最多10個文字token,參數如temperature=0.7、top_k=50、top_p=0.95,輸出GIF至「asset/frozenlake_demo」,示範前進與右轉。
- 世界建模:使用「LatentUM-WM」預測動作條件下的未來軌跡,如前進與右轉GIF(「asset/trajectory_0.gif」與「asset/trajectory_1.gif」)。
- 交錯SFT範例:文件「interleaved_sft_example.md」詳述JSONL資料格式與「asset/frozenlake_interleaved_example/」訓練樣本。
可用模型變體
HuggingFace提供多款預訓練權重:
- LatentUM_Base(基於InternVL3.5-4B):理解+生成基礎模型(https://huggingface.co/SJTU-DENG-Lab/LatentUM-Base)。
- LatentUM_Vis-Plan:微調視覺空間規劃。
- LatentUM_WM:微調動作條件世界建模。
- LatentUM_GenEval:微調GenEval,含自我反思+像素獎勵。
- Pixel Decoder(基於stable-diffusion-3-medium):像素渲染解碼器。
安裝只需git clone https://github.com/SJTU-DENG-Lab/LatentUM.git、cd LatentUM、uv sync,即可執行Python範例。
作者與致謝
作者包括Jiachun Jin、Zetong Zhou(上海交通大學)、Xiao Yang、Jun Zhu(清華大學)、Hao Zhang(UCSD)、Pengfei Liu、Zhijie Deng(上海交通大學)。專案採用Apache 2.0授權,致謝InternVL、BLIP3o、UniTok與Stable Diffusion 3.5開源貢獻。引用格式為arXiv:2604.02097(2026年)。
技術趨勢意涵
LatentUM挑戰現有統一模型的像素依賴,轉向語意導向推理,預示多模態AI從生成工具蛻變為具反思與規劃能力的系統。此進展特別適用於需逐步視覺思考的實務場景,如機器人導航或動態環境模擬,論文強調其在語意正確性上的優勢,間接批判像素忠實度過度追求的產業慣性。透過開源資源,LatentUM降低進入門檻,加速跨模態推理在Agent與世界建模的應用。
What if an AI could think in pictures and words simultaneously, without the usual translation lag?
— 机器之心 JIQIZHIXIN (@jiqizhixin) April 22, 2026
Researchers from Shanghai Jiao Tong U, Tsinghua U, and UCSD present LatentUM.
They built a single model that processes images, text, and actions all in one shared "semantic… pic.twitter.com/N2xNnSQs4l
