# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：宝玉 (@dotey) · 平台：X (Twitter) · 日期：2026-05-11

> 原始來源：https://x.com/dotey/status/2053351712149135385

## 中文摘要

# 機器人的終局：NVIDIA Jim Fan 宣告 VLA 時代結束，WAM 登場

Jim Fan 是 NVIDIA 機器人與 AI 研究組（GEAR Lab）負責人，過去幾年主推的 GR00T 人形機器人基礎模型用的是 VLA（Vision-Language-Action，視覺-語言-動作）架構。他剛在 Sequoia AI Ascent 2026 上做了一場 20 分鐘的演講，主題叫《Robotics' End Game》，第一件事就是宣布 VLA 路線過時——包括他自己半年前還在推的 GR00T。

取而代之的新範式叫世界動作模型（WAM，World Action Models），代表作是 NVIDIA 2 月發布的 DreamZero。他把這套思路叫「底層同構」：複製 LLM（Large Language Model，大型語言模型）走過的三步（預訓練→對齊→強化學習），用影片世界模型替代語言模型，用人類第一人稱影片替代遙操作資料，最終在 2040 年前讓機器人自己設計和製造下一代自己。他對此有 95% 的把握。

演講來源：Sequoia Capital AI Ascent 2026，2026 年 4 月 30 日發布。

原影片：https://www.youtube.com/watch?v=3Y8aq_ofEVs

## 要點速覽

- VLA 路線落幕：Jim 公開宣告 VLA 路線過時，新範式叫世界動作模型（WAM），代表作是 DreamZero（140 億參數）。

- 告別遙操作資料：遙操作物理上限低，預測一兩年內降到接近 0，被傳感化人類資料取代。

- 神經縮放定律：EgoScale 用 21,000 小時人類第一人稱影片預訓練，團隊發現了靈巧操作的神經縮放定律（R² = 0.998）。

- 神經仿真器：Dream Dojo 用 44,000 小時人類影片訓練出一個完全繞過物理引擎的神經仿真器。

- 終局倒數：給出 2040 年完成機器人終局的預測（物理自動研究），置信度 95%。

## 從 DGX-1 簽名到「底層同構」

Jim 用一段往事開場。2016 年夏天，就在 OpenAI 當時的辦公室，黃仁勳穿著標誌性皮夾克，抱著一塊大金屬托盤走進來，上面寫著：「致 Elon 和 OpenAI 團隊，致計算和人類的未來。」那是全球第一台 DGX-1。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542239-iaHH73m2XWMAcguA9jpg.jpg)

Jim 當時是 OpenAI 的第一個實習生，趕緊排隊去上面簽了名。「那時候我完全不知道自己在簽什麼。」旁邊一起簽的還有 Andrej Karpathy。這台機器現在在 Computer History Museum 收藏。Jim 補了一句，說自己感覺像恐龍一樣老了。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542209-iaHH73pmbXkAcsSjejpg.jpg)

> 註：Jim Fan（范麟熙）是 NVIDIA 機器人與 AI 總監、傑出科學家，領導 GEAR Lab 和 GR00T 人形機器人專案。2016 年在 OpenAI 實習時的導師是 Ilya Sutskever 和 Andrej Karpathy，後在 Stanford 跟隨李飛飛（Fei-Fei Li）讀完博士。

這個故事是為了引出他的核心框架。他引了 Ilya 那句「你信深度學習，深度學習就信你」，然後說 LLM 只用三次階躍、六年時間就走到今天：GPT-3 的預訓練，InstructGPT 的監督微調，o1 風格的強化學習，再到自動研究。

於是他做出了一個決定：抄作業，換個名字，叫**「底層同構」（the Great Parallel）**。把「模擬字串的下一個狀態」換成「模擬物理世界的下一個狀態」，透過動作微調收斂到機器人需要的那部分，最後讓強化學習走完最後一哩路。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542244-iaHH73sWfXsAg5RThjpg.jpg)

> 打不過就加入。
（「If you can't beat them, join them.」）

## VLA 怎麼了：參數都堆在了語言上

過去三年，機器人領域的主流架構是 VLA（Vision-Language-Action，視覺-語言-動作模型）。NVIDIA 自家的 GR00T 和 Physical Intelligence 的 π0 都屬於這個類別。

Jim 指出了結構性問題：其實這些模型該叫 LVA，因為參數大頭全堆在語言上了。語言是一等公民，視覺次之，動作只能墊底。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542226-iaHH73veIXUAEuVgIjpg.jpg)

> VLA 擅長編碼知識和名詞，不擅長物理和動詞。重心放在了不對的地方。

他舉了 RT-2 原始論文裡那個經典 demo：讓機器人把可樂罐推到 Taylor Swift 的照片旁邊。模型沒見過 Taylor Swift，但能泛化過去。問題是，泛化的是名詞（能認出 Taylor Swift），而不是動詞（該怎麼推、找什麼角度、用多大力）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542197-iaHH73yXCXIAIyTHhjpg.jpg)

## 從 AI 垃圾影片到 DreamZero

VLA 不是答案，那下一個預訓練範式是什麼？結果發現是影片模型，它們在內部學會了模擬物理世界的下一個狀態。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542242-iaHH731XdXEAgmRqbjpg.jpg)

怎麼把這些世界模型變有用？做動作微調。把「所有可能的未來」這種疊加態，收斂到一條對真實機器人有意義的動作軌跡上。

NVIDIA 的答案叫 DreamZero。這是一種新型策略模型，在執行動作之前先往未來「做夢」幾秒鐘，然後根據夢境行動。DreamZero 同時解碼下一幀畫面和下一步動作。在這裡，視覺和動作第一次真正成為了「一等公民」。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542229-iaHH734GlWAAMXqOMjpg.jpg)

Jim 坦率地承認 DreamZero 目前做不到每個任務都 100% 可靠。「它大概相當於 GPT-2 的階段，方向對了，但表現還不夠穩定可靠。」他給這個新架構起名叫 WAM（World Action Models，世界動作模型）。

> 為我們親愛的 VLA 默哀片刻。它已完成了歷史使命。安息吧。世界動作模型萬歲。

> 註：DreamZero 論文（arXiv 2602.15922）2026 年 2 月發布，140 億參數，基於 Wan2.1 影片擴散模型。它有一個關鍵限制：14B 模型必須經過 38 倍系統級優化加 GB200 硬體，才能把閉環控制壓到 7Hz，部署門檻極高。

## 資料革命：從遙操作到「機器人不用參與的資料採集」

過去三年是遙操作（teleop）的黃金時代。但遙操作有一個硬上限：每台機器人每天 24 小時。

「我說一天 24 小時，那是騙自己的。實際一天能幹 3 小時就不錯了，還得看當天的『機器人之神』賞不賞臉——畢竟這幫機器天天鬧脾氣出毛病。」

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542206-iaHH737JTXcAoVsAMjpg.jpg)

怎麼破局？把機器人的末端執行器直接戴在人手上，直接採集資料，完全繞過機器人本體。

NVIDIA 方案是 DexUMI，一種外骨骼裝置。用外骨骼資料訓練出的機器人策略可以完全自主運行，訓練資料裡沒有任何遙操作資料。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542194-iaHH739z9WoAIaqiTjpg.jpg)

> 機器人很開心，因為它們終於不用參與資料採集了。

## EgoScale：21,000 小時人類影片和縮放定律

NVIDIA 推出了 EgoScale：99.9% 的訓練資料來自人類第一人稱影片（egocentric video）。

預訓練用了 21,000 小時的野外人類資料，零機器人資料。動作微調階段僅僅用了 50 小時的高精度動捕手套資料，外加 4 小時遙操作資料——加起來連訓練總量的 0.1% 都不到。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542124-iaHH74AqAW8AEP5oSjpg.jpg)

最重要的發現是：靈巧操作的神經縮放定律。預訓練投入的算力小時數與最優驗證損失之間，存在一條極其清晰的對數線性關係，R² 達到了驚人的 0.998。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542218-iaHH74DYzXkAE7sXTjpg.jpg)

Jim 把所有資料策略的擴展性放在了一起：遙操作在最不可擴展的角落；第一人稱影片如果能轉動 FSD（Full Self-Driving，完全自動駕駛）式的資料飛輪，一年內能到 1000 萬小時。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542176-iaHH74GWhXsAEjcJCjpg.jpg)

## Dream Dojo：不用物理引擎的神經仿真器

機器人領域也需要花大錢買幾百萬個程式開發環境做強化學習（RL），但直接用真機（real-to-sim-to-real）不夠。

進一步的方案是 Dream Dojo：不搞物理引擎那一套，直接把影片世界模型變成一個完整的神經仿真器。輸入是連續動作訊號，即時輸出下一幀 RGB 畫面和感測器狀態。沒有物理方程式，沒有圖形引擎，完完全全是資料驅動的。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542192-iaHH74JTzWEAUpMcBjpg.jpg)

> 你看到的畫面裡沒有一個像素是真實的。

「現在算力等於環境等於資料。或者用某位智者的話：買得越多，省得越多。這條訊息已獲得我老闆批准。」

## 終局路線圖：2040 年前的三個成就

Jim 把機器人的剩餘路徑類比成了必須解鎖的三個科技樹成就：

1. 物理圖靈測試：2-3 年內，你分不出執行任務的是人還是機器人。

1. 物理 API：用軟體和大型模型編排機器人配置，建造「暗工廠」和自動化科學實驗室。

1. 物理自動研究：機器人開始自己設計、改進並製造出下一代機器人。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542212-iaHH74MYtWkAEFoLejpg.jpg)

至於時間表，他類比 AI 從 AlexNet（2012）到 Agent（2026）用了 14 年。再加 14 年，正好是 2040 年。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778460542202-iaHH74PbKWQAghH55jpg.jpg)

> 我們這一代人，生得太晚，沒趕上大航海時代去探索地球；又生得太早，夠不著星辰大海去探索宇宙。但我們生得剛剛好，趕上了攻克機器人難題的時代。

## 五個問題速答

Q：VLA 真的死了嗎？
A：演講層面是死了。但 NVIDIA 自家最新的 GR00T N1.7（2026 年 4 月）論文裡還明確寫「VLA 模型」。範式遷移在內部尚未完成。

Q：DreamZero 現在能用在生產環境嗎？
A：不能。Jim 自己說它「大概是 GPT-2 階段」。論文披露 14B 模型跑閉環控制只有 7Hz，且必須用 GB200。

Q：遙操作真的會被淘汰嗎？
A：Jim 預測一兩年內降到接近 0。但戴設備做家務不像開車是剛需，且行業大量已有的遙操作基礎設施不會一夜間報廢。

Q：靈巧操作的縮放定律意味著什麼？
A：如果 R² = 0.998 持續成立，意味著增加人類影片資料，機器人靈巧性就會可預測地提升。這是整場演講中最核心的實證論據。

Q：NVIDIA 在這盤棋裡賺什麼？
A：WAM 和神經仿真器對算力需求極高。Jim 的那句「buy more, save more」直接反映了範式切換天然有助於賣晶片的商業意圖。

## 最後：值得追蹤的三個懸念

三件事最值得追蹤：

1. DreamZero 如何跨越「GPT-2 階段」：未來 12-18 個月能不能把極限參數做穩，決定了這套範式的真實威力。

1. NVIDIA 內部對 VLA 範式的切換時刻：觀察其產品更新中架構實質演進。如果下一代還是 VLA，則演講更偏向概念行銷。

1. 第一人稱影片資料的飛輪載體：NVIDIA 自身沒有消費級硬體入口，需觀望誰（如 Apple、Meta）能真正轉動這塊千萬小時量級的資料。

## 標籤

Robot, World Model, 產業趨勢, 研究論文, NVIDIA, GEAR Lab
