# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：机器之心 JIQIZHIXIN (@jiqizhixin) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/jiqizhixin/status/2046934796488859892

## 中文摘要

LatentUM透過共享語意潛在空間實現跨模態推理，消除像素解碼延遲。

上海交通大學、清華大學與加州大學聖地牙哥分校研究團隊推出「LatentUM」，一個統一模型，將圖像、文字與動作置於共享「語意潛在空間」中處理，避免傳統模型需不斷生成完整圖像的低效步驟。此模型在視覺規劃任務上達到最先進水準，支持自我修正圖像生成，並能模擬未來視覺狀態，同時更高效。

**論文與資源發布**
論文《LatentUM: Unleashing the Potential of Interleaved Cross‑Modal Reasoning via a Latent‑Space Unified Model》於2026年4月3日上傳arXiv（https://arxiv.org/pdf/2604.02097），程式碼開源於GitHub（https://github.com/SJTU-DENG-Lab/LatentUM），模型權重置於HuggingFace（https://huggingface.co/collections/SJTU-DENG-Lab/latentum）。機器之心JIQIZHIXIN報導強調，此模型讓AI同時以圖像與文字思考，無翻譯延遲。

**現有統一模型的局限**
現有統一模型（UMs）主要聚焦視覺生成任務，如圖像生成、編輯與影片生成，但表現落後專門模型，且無法展現UMs真正價值。這些模型使用理解與生成的分離視覺表示，需像素解碼作為橋樑，此步驟引入不必要的編解碼偏差（codec bias）與跨模態錯位，導致推理任務指令遵循能力下降，尤其在需密集視覺思考的問題上無效且低效。論文明確批判，此設計無法處理如逐步視覺推理解決視覺規劃、透過自我反思改善生成，或基於動作干預的世界建模等高價值任務，這些任務偏好語意正確性而非像素忠實度。

**LatentUM核心設計**
LatentUM將所有模態嵌入共享語意潛在空間，消除像素空間中介，直接支援彈性交錯跨模態推理與生成。
- **共享語意潛在空間**：文字與視覺token共享同一空間，讓模型直接在其生成視覺內容上推理。
- **MBAQ（Model Behavior Aligned Quantization）**：模型行為對齊量化，將CLIP特徵離散化為離散視覺語意token，目標保留視覺語言模型（VLM）的預測能力，而非像素重建，確保生成視覺token可被模型自身解釋。
- **MoME（Mixture-of-Modal Experts）**：模態專家混合架構，為各模態分配專屬Transformer區塊參數，透過自注意力實現跨模態互動，減緩梯度中跨模態干擾。
- **自回歸Transformer**：以簡單的下一個token預測目標實作，繼承現成VLM的視覺理解能力，透過參數初始化。
- **獨立像素解碼器**：額外訓練DiT（Diffusion Transformer）解碼器，用於需像素視覺化的任務，如文字到圖像生成，保持潛在空間聚焦語意。

此設計不僅提升計算效率，還大幅減輕編解碼偏差，強化跨模態對齊。

**訓練與效能表現**
LatentUMBase基於InternVL3.5-4B架構與預訓練權重，其視覺分支在3200萬文字到圖像配對上訓練，在標準視覺理解與生成基準上與現有統一模型具競爭力。後續後訓練激活交錯跨模態推理能力，產生任務專屬變體：
- 在「Visual Spatial Planning」基準上達到統一模型中最先進表現。
- 在GenEval與GenEval2上透過自我反思推升視覺生成極限。
- 支持世界建模，在共享語意潛在空間預測未來視覺狀態為離散語意token，展現環境動態的語意連貫預測。

**關鍵功能展示**
GitHub提供多項示範，證明LatentUM在實際應用中的優勢。
- **圖像理解**：載入「asset/blue_apple.png」，詢問「Describe this image.」，模型直接回應。
- **圖像生成**：輸入「a photo of a cute dog」，結合LatentUM-Base與像素解碼器生成並儲存「generated.png」。
- **視覺空間規劃**：使用「LatentUM-Vis-Plan」在「FrozenLake」環境（如「asset/frozenlake_level6_000.png」）執行最多16步規劃，每步最多10個文字token，參數如temperature=0.7、top_k=50、top_p=0.95，輸出GIF至「asset/frozenlake_demo」，示範前進與右轉。
- **世界建模**：使用「LatentUM-WM」預測動作條件下的未來軌跡，如前進與右轉GIF（「asset/trajectory_0.gif」與「asset/trajectory_1.gif」）。
- **交錯SFT範例**：文件「interleaved_sft_example.md」詳述JSONL資料格式與「asset/frozenlake_interleaved_example/」訓練樣本。

**可用模型變體**
HuggingFace提供多款預訓練權重：
- LatentUM_Base（基於InternVL3.5-4B）：理解+生成基礎模型（https://huggingface.co/SJTU-DENG-Lab/LatentUM-Base）。
- LatentUM_Vis-Plan：微調視覺空間規劃。
- LatentUM_WM：微調動作條件世界建模。
- LatentUM_GenEval：微調GenEval，含自我反思+像素獎勵。
- Pixel Decoder（基於stable-diffusion-3-medium）：像素渲染解碼器。

安裝只需`git clone https://github.com/SJTU-DENG-Lab/LatentUM.git`、`cd LatentUM`、`uv sync`，即可執行Python範例。

**作者與致謝**
作者包括Jiachun Jin、Zetong Zhou（上海交通大學）、Xiao Yang、Jun Zhu（清華大學）、Hao Zhang（UCSD）、Pengfei Liu、Zhijie Deng（上海交通大學）。專案採用Apache 2.0授權，致謝InternVL、BLIP3o、UniTok與Stable Diffusion 3.5開源貢獻。引用格式為arXiv:2604.02097（2026年）。

**技術趨勢意涵**
LatentUM挑戰現有統一模型的像素依賴，轉向語意導向推理，預示多模態AI從生成工具蛻變為具反思與規劃能力的系統。此進展特別適用於需逐步視覺思考的實務場景，如機器人導航或動態環境模擬，論文強調其在語意正確性上的優勢，間接批判像素忠實度過度追求的產業慣性。透過開源資源，LatentUM降低進入門檻，加速跨模態推理在Agent與世界建模的應用。

## 標籤

研究論文, AIGC, VLM, LatentUM, 上海交通大學, 清華大學
