# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Weijie Wang (@wjwang2003) · 平台：X (Twitter) · 日期：2026-04-29

> 原始來源：https://x.com/wjwang2003/status/2049136028968272260

## 中文摘要

World-R1透過強化學習喚醒影片模型內在3D能力，無需架構變更或影片資料。

World-R1框架於2026年arXiv論文（arXiv:2604.24764）中提出，由Weijie Wang領軍，結合浙江大學、Microsoft Research及獨立研究者開發，利用強化學習（RL）對齊文字到影片生成與3D約束，解決現有影片基礎模型的幾何不一致問題。該方法不改變基礎影片模型架構、不需大量3D監督資料或額外推論成本，僅用3K純文字提示進行優化，即顯著提升3D一致性，同時保留視覺品質與動作多樣性。

**核心創新機制**

World-R1的核心在於將相機軌跡嵌入擴散噪聲中，實現零額外模組的相機感知潛在初始化，無需修改基礎影片架構。
- 文字提示中的相機指令（如「camera move left」「camera push in」「camera orbit right」）轉換為明確軌跡，透過噪聲包裝（noise wrapping）注入初始影片潛在空間，提供隱式相機條件。
- 使用Flow-GRPO進行後訓練優化，結合3D感知獎勵與美學獎勵，來自預訓練3D基礎模型與視覺語言模型的回饋。
- 3D獎勵具體包括Depth Anything 3與Qwen3-VL作為幾何評審，提供meta-view評估、重構一致性及軌跡對齊獎勵，強制結構一致性。

**週期性解耦訓練策略**

為平衡剛性幾何一致性與動態場景流暢度，World-R1採用週期性解耦訓練，避免模型過擬合靜態剛性場景。
- 基礎階段聚焦純文字世界模擬分類法（pure-text world-simulation taxonomy），涵蓋自然景觀、都市建築、微觀靜物、奇幻超現實及藝術風格。
- 週期性動態專屬訓練階段，使用高熵動態提示（如獅子咆哮、士兵齊步行進、無人機走廊飛行），以動態場景提示正規化模型，提升動作多樣性，同時保留已學3D一致性。
- 此策略確保建築物保持剛性（如層狀岩石峽谷壁），旗幟仍能飄揚，展現大尺度幾何、流體結構與大氣一致性。

**生成結果展示**

World-R1在多類提示下產生具代表性影片，涵蓋靜態到動態場景，證明3D一致性大幅提升。
- **自然景觀**：深層峽谷壁（camera move left）、極地冰原（camera push in）、發光巨型真菌森林（camera orbit right then push in）；水景如苔蘚懸崖瀑布、深海珊瑚礁、海洋漩渦；天氣如野花田（camera orbit right）、星夜湖映（camera pan left）、夜林落雪（camera move left）。
- **都市與建築**：歐洲中世紀廣場（camera orbit right）、現代玻璃摩天大樓（camera move left）、未來城市（camera push in）；室內如歌劇院觀眾、無尾擴骨展覽、洗衣店洗衣機；基礎設施如廢棄工業區（camera pan left）、巨型橋樑、無人巴士站。
- **微觀與靜物**：馬卡龍下午茶組、乾野花排列、蠟燭靜物（camera move right then push in）；微縮景觀模型（camera move left）、晶體微結構（camera orbit right）；材質如威士忌冰塊（camera orbit right）、鑽石寶石、發光水母鐘形細節。
- **奇幻超現實**：融化鐘樹枝（camera pull out）、雲上浮寺（camera orbit left）、奇想城市景（camera pull out）。
- **藝術風格**：日本橋水百合池、中國水墨場景（camera push in）、浮世繪木刻風格。
- **動態子集**：獅吼風中鬃毛抖動、士兵同步行軍、無人機走廊飛行、駭客狂打鍵盤、戰機表演、湖上鳥群起飛。

**技術實現與開源細節**

專案網站（https://aka.ms/world-r1）、論文（https://huggingface.co/papers/2604.24764）及程式碼（https://github.com/microsoft/World-R1）已公開，基於Wan2.1-T2V-14B-Diffusers模型，提供完整訓練與推論腳本。
- **環境設定**：Python 3.10+、CUDA、PyTorch（cu124），安裝diffusers、transformers、peft、wandb等核心套件；額外3D獎勵套件如lpips、trimesh、moviepy、Depth Anything 3、Qwen3-VL。
- **訓練流程**：單節點使用scripts/run_single_node.sh，指定MODEL_PATH、SERVER_VISIBLE_DEVICES、TRAIN_VISIBLE_DEVICES、NUM_PROCESSES=6；多節點需預啟reward servers，提供REWARD_3D_SERVER_URL與GENERAL_REWARD_SERVER_URL。
- **工具腳本**：
  - scripts/train_world_r1.py：主RL訓練入口。
  - scripts/infer_wan_lora.py：批次推論WAN檢查點或LoRA。
  - scripts/noise_wrap_ablation.py：視覺化潛在包裝效果。
  - scripts/serve_reward_3d.py與scripts/serve_general_reward.py：獎勵服務後端。
- **資料集**：內建dataset/final/（基礎提示分割，用於訓練、驗證、動態正規化）與dataset/enhanced/（擴充提示變體）。
- 授權為MIT，第三方如Flow-GRPO、Depth Anything 3保留原授權；致謝Wan2.1、Flow-GRPO、Depth Anything 3、Qwen3-VL開源貢獻。

**方法優勢與影響**

相較既有方法，World-R1避免架構修改帶來的計算成本與可擴展性限制，證明影片模型已內含3D知識，僅需RL「喚醒」。評估顯示，其有效彌補影片生成與可擴展世界模擬的差距，保留基礎模型視覺品質，適用自然景觀大尺度幾何、都市透視正確性、微觀材質保真度及非歐幾何奇幻場景。開源實現降低門檻，預期推動文字到影片生成向真實3D世界模擬邁進，無需影片訓練資料即達此效，凸顯RL在多模態生成中的高效潛力。

## 標籤

研究論文, AIGC, World Model, Microsoft, 浙江大學
