# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Vai Viswanathan (@vai_viswanathan) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/vai_viswanathan/status/2050177504392998932

## 中文摘要

# 到底什麼是 World Model？

「World model」（世界模型）是當下最熱門的詞彙。李飛飛（Fei-Fei Li）的 World Labs 在脫離幕後狀態後募資 2.3 億美元，隨後又完成了 10 億美元的融資。Yann LeCun 離開 Meta 創立了 AMI Labs，該公司以 35 億美元的估值募資 10.3 億美元，旨在從零開始構建世界模型。Google DeepMind 推出了 Genie 3。OpenAI 將 Sora 定位為「世界模擬器」。NVIDIA 發布了 Cosmos。Dreamer 4 僅憑離線資料就解決了 Minecraft 的鑽石挑戰（Diamond Challenge）。現在，任何有實力的機器人實驗室都有一篇關於世界模型的論文。

問題在於，當你試圖釐清「世界模型」究竟是什麼時，根據詢問對象的不同，你會得到五種截然不同的答案。

本文旨在拆解這個術語。首先，什麼是世界模型？其次，目前的技術路徑有哪些？第三——如果你是機器人開發者，這點至關重要——世界模型在現代機器人技術堆疊中究竟扮演什麼角色？

## 什麼是 World Model？

首先要理解的最重要一點是：世界模型是一個「問題陳述」，而非一種「模型架構」。

最貼切的類比是 SLAM（同步定位與地圖構建）。SLAM 並非特定的演算法，而是一個問題：給定一串感測器資料，在構建周圍環境地圖的同時，判斷自己身在何處。目前有數十種 SLAM 方法：基於濾波器的方法（如 EKF-SLAM 和 FastSLAM）、基於圖優化後端的方法（如 GTSAM 或 Ceres Solver）。感測器模態也各不相同——攝影機、LiDAR、IMU，或是三者的融合。即使在視覺 SLAM 內部，也有處理原始像素強度的直接法，以及提取關鍵點（如 ORB 或 SIFT）的特徵法。

世界模型也是如此。「構建一個世界模型」是目標，而如何構建則是完全開放的。

LeCun 的定義

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225611-iaHGma5XmWwAA7SYRjpg.jpg)

最簡潔的正式定義來自 Yann LeCun（來源）：

給定：

- x(t)：一個觀測結果
- s(t)：對世界狀態的先前估計
- a(t)：一個動作建議
- z(t)：一個潛在變數建議

世界模型計算：

- h(t) = Enc(x(t))，即表徵（representation）
- s(t+1) = Pred(h(t), s(t), z(t), a(t))，即預測

其中：

- Enc() 是一個編碼器（可訓練的確定性函數，例如神經網路）
- Pred() 是一個隱藏狀態預測器（同樣是可訓練的確定性函數）
- z(t) 代表了那些能讓我們精確預測未來結果的未知資訊。它必須從某個分佈中採樣，或在一組集合中變化。它參數化了合理預測的集合（或分佈）。

讓我們用一個例子來落實這個正式定義。

實例說明：自動駕駛汽車

想像一輛停在空曠停車場的自動駕駛汽車，車上只有一個前置攝影機。它有兩個控制項：轉向角和油門。

- x(t) — 攝影機看到的初始影像。柏油路、地平線，可能還有圍欄。
- s(t) — 汽車的內部狀態：位置、速度、航向、當前轉向角。初始狀態為 (0, 0, 0)，速度為零。
- a(t) — 汽車決定採取的動作。假設我們正在原地甩尾：左轉到底 (-1) 並全油門 (+1)。
- z(t) — 不可觀測的因素。輪胎抓地力有多少？一陣強風？路面上看不見的油漬？感測器雜訊？現實世界中任何會影響結果但無法從當前狀態讀取的因素。確定性模型會忽略 z(t)，而機率模型會從分佈中採樣，給你一組合理的未來情境，而不是單一預測。

基於這些，世界模型預測 s(t+1) — 汽車的下一個狀態。

重要提示：這不是對下一張影像的預測，而是對底層狀態的預測。即在全油門、轉向到底的情況下，經過短暫時間後汽車的新位置、速度和航向。

解碼器（Decoder）擴充

如果你確實想生成下一張影像，可以增加一個解碼器步驟（由 Kevin Murphy 提出）：

x(t+1) = Dec(s(t+1))

這種區別比看起來更重要。LeCun 有意將「預測」與「渲染」分開。世界模型的工作是針對狀態進行推理。將該狀態渲染回像素是一個獨立的、可選的步驟。正如我們將看到的，這種分離正是世界模型各流派之間產生分歧的地方。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225917-diaHGmaZPXQAAJ136jpg.jpg)

## 目前有哪些技術路徑？

今天，構建現代世界模型主要有三種主流範式。每一種對於「壓縮什麼」、「預測什麼」以及「是否渲染」都有不同的立場。

1. 生成式世界模型（Generative World Models）

這是最受矚目的類別。像 Sora、Veo、Genie 3、GameNGen 以及 World Labs 的 RTFM 等模型，學習在給定過去上下文和動作輸入的情況下，預測影片的下一幀。

在架構上，它們通常是自回歸 Transformer 或影片擴散模型（Diffusion Models），且經常結合使用。你給模型一張起始影像（或文字 Prompt），可選地加上一串動作，它就會逐幀預測世界的演變。

其邏輯很直接：如果模型能準確生成未來，它在某種程度上一定理解這個世界。在 Genie 裡玩遊戲，環境似乎具有一致的物理規律和物體恆存性；駕駛虛擬汽車，道路也會做出反應。

但這些模型也存在眾所周知的失敗模式：

- 自回歸漂移（Autoregressive drift）——小誤差在長序列預測中會不斷累積
- 幻覺（Hallucination）——物體在被遮擋時會憑空消失或出現
- 物理不合理性——水往高處流、剛體變形、光照不一致
- 記憶缺失——當你轉頭看別處時，世界發生了變化

這如何符合 LeCun 的定義：生成式模型將「狀態」和「觀測」合併為同一個東西——它們直接在觀測（像素）空間中進行預測，跳過了抽象狀態。LeCun 會認為這是一種貧乏的實例化：模型幾乎所有的容量都花在了渲染上，留給推理和控制等關鍵部分的容量就更少了。

2. 潛在世界模型（Latent World Models）

潛在世界模型不是預測像素，而是在壓縮的抽象表徵空間中進行預測。目前有兩個主要的子家族，它們在哲學觀點上存在值得深究的對立。

潛在動力學模型（Latent Dynamics Models）——如 Dreamer / DreamerV3 / Dreamer 4、PlaNet、TD-MPC。這些模型源於基於模型的強化學習（Model-based RL）。循環狀態空間模型（RSSM）學習在給定動作條件下預測未來的潛在狀態。關鍵在於，這些模型通常使用重構損失（reconstruction loss）進行訓練——解碼器強制潛在空間保留足夠的資訊來重構觀測結果——並結合獎勵預測，使潛在空間與任務相關。隨後，策略和價值函數會在這些潛在空間中想像出的軌跡上進行訓練。

JEPA（Joint Embedding Predictive Architecture）——如 I-JEPA、V-JEPA、V-JEPA 2，以及最近 AMI Labs 及其合作者推出的 LeWorldModel (LeWM)。視覺編碼器產生當前狀態的嵌入（embeddings）；預測器則預測未來或被遮蔽區域的嵌入。沒有獎勵，沒有像素重構。模型純粹透過表徵空間中的自監督預測進行訓練。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225605-iaHHNC6AOWkAAxJdvjpg.jpg)

雖然兩者都在潛在空間中運作，但它們在四個方面存在重要差異：

- 訓練訊號：潛在動力學模型透過重構損失（經由解碼器）和通常的獎勵訊號進行 End to End (端到端) 訓練；潛在狀態由重構像素和預測回報的需求所塑造。JEPA 僅使用單一的「嵌入空間內自監督預測」目標進行訓練——沒有解碼器，也沒有獎勵。
- 對生成的立場：潛在動力學模型擁抱生成；例如 Dreamer 4 可以從潛在狀態想像出完整的影片序列。JEPA 則完全拒絕將生成作為訓練目標。LeCun 的論點是，世界包含本質上不可預測的細節（樹上的葉子、感測器的雜訊），強迫模型在像素層級預測這些細節，會浪費模型容量在那些根本無法預測的事物上。
- 任務特定性：潛在動力學模型通常針對特定環境或任務進行訓練，獎勵會塑造潛在空間。JEPA 則以任務無關、無獎勵的方式在影片上進行訓練，隨後透過 MPC 或小型動作條件預測器適應下游控制任務。
- 控制方式：潛在動力學模型通常在世界模型內部訓練一個明確的 Actor-Critic。基於 JEPA 的控制器通常在測試時執行 MPC：採樣候選動作序列，在嵌入空間中向前模擬，並選擇預測嵌入最接近目標嵌入的那一個。

這如何符合 LeCun 的定義：不出所料，這是與正式定義最契合的路徑。潛在動力學模型擁有強大的 Enc()、透過 RSSM 實現的強大 Pred()、隨機採樣 z(t)，以及訓練時使用但在規劃時常被捨棄的 Dec()。JEPA 則是純度最高的契合者——Dec() 從設計上就被移除，LeCun 認為這是一個特性，而非缺陷。

3. 3D 神經世界模型（3D Neural World Models）

第三類別致力於將 3D 幾何作為表徵。NeRF 開創了這一先河——一種隱式神經函數，將 3D 座標映射到顏色和密度，並透過體積射線投射（volumetric ray marching）進行渲染。過去兩年，3D Gaussian Splatting 在很大程度上取代了 NeRF，它將隱式函數替換為數百萬個明確的小型半透明高斯球體，渲染速度大幅提升。

World Labs 是該領域的旗艦公司。他們的產品 Marble 可以從文字、影像或影片生成持久且可探索的 3D 世界。你可以將結果匯出為 Gaussian splat 檔案、帶有碰撞幾何的網格或影片——這些格式可以直接放入 Unreal、Unity、Blender 或 NVIDIA 的 Isaac Sim 中。

這如何符合 LeCun 的定義：部分符合。3D 神經模型在表徵方面表現出色——Enc() 很強，3D 結構是極佳的狀態表徵。但 Pred() 通常較弱。靜態的 NeRF 或 splat 不會預測任何東西；它只是渲染它被訓練要渲染的內容。雖然存在動態擴充，但它們並非核心設計。用 LeCun 的術語來說，這些更適合作為「世界表徵」而非「世界模型」——而 World Labs 推動的 RTFM 正是為了彌補這一差距的明確嘗試。

總結

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225638-iaHGmdECCXwAAwDoajpg.jpg)

這裡有兩欄最為關鍵。Pred() 欄位揭示了哪些方法是在真正意義上進行前向預測。生成式模型確實進行了預測，但它們將 s(t+1) 和 x(t+1) 混為一談，直接輸出像素，完全跳過了抽象狀態。NeRF 和 3DGS 幾乎不進行預測；它們只是從新的視角渲染固定的場景。只有潛在動力學模型和 JEPA 在動作之上擁有清晰、抽象的 Pred()。

Dec() 欄位則是真正的哲學分歧點。生成式和 3D 神經模型將大部分容量投入到像素渲染中。潛在動力學模型在訓練時使用解碼器，並可在規劃時選擇性地捨棄。JEPA 則完全拒絕解碼器。世界模型在「解碼回像素」上投入多少，可以說是該領域最大的開放性設計問題。

## 世界模型在機器人技術中是如何應用的？

對於任何構建機器人的人來說，實際問題是：世界模型何時才能真正發揮價值？誠實的回答是，世界模型現在出現在機器人開發生命週期的幾乎每個階段——訓練前、訓練中、訓練後以及部署時。共有五種不同的應用場景。

1. 評估（Evaluation）

將策略（policy）運行在已學習的世界模型上，作為現實世界測試的代理。

這是短期內回報最明顯的應用場景，因為真實機器人的評估速度極慢。設置任務、運行足夠的試驗以達到統計顯著性、在每個回合間重置，以及處理硬體漂移，每個策略檢查點（checkpoint）可能需要耗費數天的實際時間。團隊通常僅在評估上就消耗數千個工程小時。世界模型讓你可以同時在叢集上針對數百個策略檢查點運行相同的測試套件——而且由於初始幀來自真實機器人攝影機，評估領域比手工製作的模擬器更接近實際部署環境。

範例：WorldGym（與現實世界成功率的相關係數 r = 0.78，在 VLA 上的平均誤差為 3.3%）、DreamDojo（在策略檢查點之間的 r = 0.995），以及用於 Gemini Robotics 的 Veo 世界模擬器（在 1,600 多次真實試驗中得到驗證）。

一個密切相關的應用場景——實際上是評估的延伸——是安全性紅隊測試（safety red-teaming）。與其問「這個策略會成功嗎？」，你問的是「什麼情境會導致這個策略失敗？」。Veo/Gemini 論文是經典範例：生成式影像編輯將對抗性物體、干擾物和安全關鍵元素放入場景中，然後運行策略以觀察它是否會做出不安全的行為。沒有硬體風險，無需人工演示，且你可以探測物理上不可能設置的情境（例如嬰兒爬進機器人的 workspace，或手術機器人器械上的液體）。這很可能是世界模型提供不可否認的操作價值的第一個領域——替代方案不僅更慢，甚至是不可能的。

2. 直接規劃（Direct Planning）

在執行時查詢世界模型以選擇動作。

機器人不再學習將觀測結果直接映射到動作的策略，而是提出候選動作序列，在世界模型中模擬它們，並執行看起來最好的一個。此時，世界模型就是規劃器。

JEPA 系列是旗艦範例。V-JEPA 2-AC 在嵌入空間中使用模型預測控制（MPC）——給定目標影像，選擇能最小化「預測嵌入與目標嵌入之間距離」的動作，然後在下一步重新規劃。LeWorldModel 將此推向極致：一個緊湊的 15M 參數 JEPA，規劃速度比基礎模型世界模型快 48 倍，同時在操作基準測試中保持競爭力。DreamDojo 使用類似的「提出-模擬-評分-執行」循環，從策略集合中採樣候選動作塊，並透過外部價值模型選擇最佳動作，比均勻採樣提升了約 2 倍的效能。

3. 訓練健身房（在想像中進行 RL）

在世界模型內部訓練策略。這是 1991 年 Sutton 的 Dyna 架構的直接繼承者：學習一個模型，然後用它來產生廉價的模擬經驗以更新策略。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225599-iaHHNDszvXAAEDtqxjpg.jpg)

3a. 在世界模型中訓練

核心概念很簡單：在已學習的世界模型中向前運行策略，對產生的結果進行評分（使用學習到的獎勵函數或 VLM 判斷器），並使用分數透過 RL 更新策略。現實世界的互動預算因此降低了幾個數量級。

這種範式由 DayDreamer（Berkeley, 2022）首次在物理機器人上驗證，它在沒有模擬器的情況下，讓四足機器人從零開始學會行走。Dreamer 4（2025）將其規模化，僅憑離線資料就解決了 Minecraft 的鑽石挑戰——從原始像素中進行 20,000 多次動作。在機器人領域，Robotic World Model (RWM) 展示了對 ANYmal D 腿式硬體的零樣本（zero-shot）遷移；World4RL 使用擴散世界模型來改進模仿學習的操作策略；World-Gymnast 針對 WorldGym 訓練 VLA 策略並輔以 VLM 獎勵，在 Bridge 機器人上比監督式微調提升了 18 倍；GigaBrain-0.5M* (RAMP) 則在 VLA 基礎模型規模上應用了相同的配方。

值得注意的是：現代版本大多用於改進預訓練策略，而非從零開始訓練。從基礎 VLA 的監督式微調進行引導（bootstrapping）現在已是標準做法，世界模型則在之上提供 RL 訊號。像 DayDreamer 那樣完全在想像中從零開始訓練，目前大多仍侷限於運動控制規模。

3b. 迭代式世界模型更新

如果到此為止，世界模型是靜態的——預訓練一次並作為固定健身房使用。但用於評估的真實部署環境產生的軌跡，正是世界模型改進所需要的。這就形成了一個閉環：真實硬體上的策略運行 → 微調世界模型 → 更好的想像運行 → 更好的策略更新 → 重複。

這就是 35 年後的教科書級 Dyna 架構。World-Gymnast 明確實現了這一點，在 AutoEval 評估期間收集真實機器人軌跡，並在幾輪之間使用它們對 WorldGym 進行 120k 步的微調。作者明確引用了 Sutton 1991，並證明了迭代改進的重要性：來自 Dyna 更新的世界模型的軌跡，比軟體模擬器的軌跡更符合現實世界的行為。

其影響遠超該論文本身。這意味著生產級機器人系統可以將改進世界模型作為其正常評估工作的副產品。每一次評估運行同時也是為下一輪訓練提供動力的資料收集運行。「離線預訓練」與「線上部署」之間的界線開始模糊。

3c. 測試時訓練（Test-time training, TTT）

第三個子主題將此推向更遠：在部署時，針對預訓練策略未見過的新場景進行策略更新。

將機器人置於新環境中。在執行任何動作之前，透過世界模型內的 RL 微調策略——僅進行想像中的運行，無需真實世界互動。然後在實際任務上部署該專用策略。

World-Gymnast 的數據令人驚艷：在一個具有全新初始幀的「關抽屜」任務中，測試時訓練將成功率從 62% 提升到了 100%。沒有真實世界的運行，沒有額外的演示，沒有新的訓練資料——僅僅是在策略接觸硬體之前，在世界模型內進行了一次快速的 RL 微調。這是一種質變的新能力。這意味著機器人可以在接觸硬體前，透過在想像中練習來為未見過的任務做準備。

迭代更新與 TTT 共同將訓練健身房從靜態的預訓練環境轉變為持續學習的基底。這是世界模型故事中討論最少，但對機器人技術而言可能影響最深遠的部分。

4. 合成資料生成（Synthetic Data Generation）

將世界模型作為資料工廠。

這與訓練健身房不同，因為循環中沒有策略運行，沒有獎勵訊號，也沒有 RL。世界模型離線生成軌跡——新的視角、新的背景、新的物體、新的光照條件——這些軌跡被用於標準的監督式模仿學習。

GigaBrain-0 是代表性範例：一個 VLA 基礎模型，在約 1,000 小時的真實機器人資料上進行訓練，並輔以大量由世界模型生成的資料（影片生成、實對實遷移、人對機器人遷移、視角遷移、模擬對現實遷移）。增加合成資料比例會單調地提升模型在不同外觀、放置位置和視角變換下的泛化能力。

NVIDIA Cosmos 是目前最接近通用平台的產品。Cosmos 明確定位為物理 AI 的世界基礎模型，用於為機器人和自動駕駛大規模生成合成訓練資料。它現在被用作 Cosmos-Surg-dVRK（手術策略評估）等下游工作的骨幹，並作為更廣泛 VLA 訓練管線中的世界模型組件。

World Labs 的 Marble → Isaac Sim 管線是另一種形式：生成照片級逼真的廚房或倉庫環境，匯出 splat 和碰撞網格，然後輸入物理模擬器進行機器人訓練。數週的手動環境策劃工作被壓縮至幾分鐘。

5. 世界-動作模型（World-Action Models, WAMs）

一種統一架構，其中世界模型即策略。

傳統 VLA 將「觀測 + 語言」映射為「動作」。WAMs 則在單一模型中聯合預測未來影片和未來動作，並使用對齊的損失函數進行訓練。其主張是：學習預測世界如何在動作下演變，比單純學習動作能提供更強的物理先驗。

範例：DreamZero（一個基於影片擴散骨幹構建的 14B 自回歸擴散 Transformer；報告稱比最先進的 VLA 泛化能力提升 2 倍，並實現了 7 Hz 的即時閉環控制）、WorldVLA / RynnVLA-002、GigaWorld-Policy、Motus 和 Cosmos-Policy。

該類別也有其新興的自我批判。Fast-WAM (2026) 提出了一個尖銳的問題：WAMs 在測試時真的需要生成影片嗎？還是說影片預測主要僅作為訓練目標有用？他們的答案傾向於後者——一個進行影片聯合訓練但在推理時跳過未來生成的 WAM，運行速度快了 4 倍且效能具有競爭力。早期證據表明，該方法的核心價值可能在於表徵學習，而非運行時模擬。

它們在生命週期中的位置

退後一步，綜觀這五種應用場景，一個模式浮現了。世界模型不是你在某個時刻才會用到的單一工具——它是貫穿整個機器人 ML 管線的基底：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777679225757-iaHHNNaiiXsAEW6jFjpg.jpg)

在訓練前，世界模型生成資料；訓練中，它是環境；訓練後，它是評分員和探測安全漏洞的對手；部署時，它是規劃器，或者越來越多地，它直接成為策略本身。而在迭代更新機制下，訓練與部署之間的界線完全消失：機器人在世界中的經驗回饋給世界模型，進而改進下一輪訓練週期的基底。

這與傳統機器人技術形成了鮮明的對比，在傳統架構中，地圖、模擬器、動力學模型和策略是分別由不同團隊構建的獨立產物。目前的趨勢是走向一個能完成所有這些工作的「學習型基底」。

## 結論

現在應該很清楚，「世界模型」這個詞彙背後隱藏了多少差異。四種截然不同的架構路徑——生成式、潛在動力學、JEPA、3D 神經——都聲稱擁有這個標籤，但它們在基本面上存在分歧：是否渲染像素、是否使用獎勵、是否採用 3D 結構、策略與世界模型是分離還是融合。在此之上，還有五種不同的機器人應用場景——資料生成、訓練健身房、評估、規劃、統一策略——每一種都觸及開發生命週期的不同階段。「世界模型」是問題陳述，而解決方案和應用的空間仍在迅速擴張。

我們正處於這個故事的開端，而非終結。那些在叢集上徹夜運行而非在實驗室耗時一週的評估管線，將讓機器人團隊以完全不同的速度進行迭代。測試時訓練意味著機器人可以在接觸硬體前，先在想像中為新任務做準備。迭代式世界模型更新意味著每一次部署都會改進下一輪訓練週期的基底。世界-動作模型模糊了模擬器與策略之間的界線。這些不僅是漸進式的改進，更是足以改變可能性的轉折點。

隨著該領域的發展，我們將看到哪些路徑能真正推動機器人技術的突破——哪些方法能規模化、哪些應用場景會成為標準基礎設施、哪些組合最為重要。機器人技術尚未經歷像 LLM 對於語言那樣的轉折時刻，即一種新的模型範式讓先前不可能的能力突然變得常態化。世界模型是目前最有希望實現這種轉折的候選者。未來幾年將告訴我們，這場賭注是否會得到回報。

## 標籤

World Model, 產業趨勢, 研究論文, World Labs, AMI Labs, Google DeepMind
