騰訊開源HY-World 2.0,多模態世界模型從文字、圖像、影片生成可編輯3D世界
騰訊開源HY-World 2.0,多模態世界模型從文字、圖像、影片生成可編輯3D世界。
HY-World 2.0是騰訊Hunyuan團隊推出的多模態世界模型框架,專注於3D世界的生成與重建,能從文字、單視圖圖像、多視圖圖像或影片產生高保真、可導航的3D資產如網格(meshes)、3DGS與點雲,直接匯入Unity、Unreal Engine或Isaac Sim等遊戲引擎。相較傳統影片世界模型如Genie 3、Cosmos與HY-World 1.5僅產生「看完即逝的影片」,HY-World 2.0強調「建構永存可玩遊戲」,解決影片模型的閃爍、不一致與高延遲痛點,已於2026年4月16日釋出技術報告與WorldMirror 2.0程式碼與權重,其餘模組即將開源。
核心架構與流程
HY-World 2.0採用四階段管線,從文字或單張圖像自動轉換為高保真3D世界:
- 全景生成(HY-Pano 2.0):文字/圖像→360°全景。
- 軌跡規劃(WorldNav):全景→相機軌跡。
- 世界擴展(WorldStereo 2.0):全景→3DGS世界。
- 世界合成(WorldMirror 2.0 + 3DGS學習):整合成最終3D資產。
重建功能由WorldMirror 2.0驅動,這是統一的前饋模型,在單次前向傳遞中同時預測深度圖、表面法線、相機參數、3D點雲與3DGS屬性,支持50K–500K像素彈性解析度。官方強調這是開源SOTA(state-of-the-art)水準,成果媲美封閉源碼如Marble。
與影片世界模型的根本差異
HY-World 2.0批判傳統影片世界模型僅輸出像素影片,等同「看電影結束即消失」,缺乏持久性與可控性。相較之下,HY-World 2.0直接產生真實3D asset,可無限探索、即時渲染,並具相容遊戲引擎優勢:
| 面向 | 影片世界模型 | HY-World 2.0 (3D世界模型) |
|---|---|---|
| 輸出 | 像素影片(不可編輯) | 真實3D asset(網格/3DGS,完全可編輯) |
| 可玩持續時間 | 有限(通常1分鐘) | 無限(asset永久存在) |
| 3D一致性 | 無(多視圖閃爍、偽影) | 原生一致 |
| 即時渲染 | 每幀推論,高延遲 | 消費級GPU即時渲染 |
| 可控性 | 弱(角色控制不精準,無真實物理) | 精準(零誤差控制、真實物理碰撞、準確光照) |
| 推論成本 | 每次互動累積 | 一次性生成,渲染成本≈0 |
| 引擎相容 | ✗ 僅影片檔 | ✓ 直接匯入Blender/UE/Isaac Engine |
| 本質 | 看影片,結束即沒 | 建構世界,永存不滅 |
所有示範GIF均為真實3D asset的即時互動捕捉,非生成影片。
主要亮點功能
- 一鍵世界生成:文字或圖像自動轉互動3D世界,支持寫實、卡通、遊戲等多樣風格,可自由探索街道、建築與景觀。
- 即時3D重建:從照片或隨手影片產生數位孿生,WorldMirror 2.0單次前向預測密集點雲、深度圖等。
- 互動角色模式:支援第一人稱導航與第三人稱角色,具物理感知移動與碰撞;官方產品頁https://3d.hunyuan.tencent.com/sceneTo3D提供免費試用(目前非常擁擠,請耐心)。
- 管線就緒輸出:標準3D匯出格式,包括mesh、3DGS與點雲,直接整合遊戲引擎與具身模擬管線。
開源進度與模型動物園
2026年4月16日釋出HY-World 2.0技術報告(https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)、WorldMirror 2.0推論程式碼與權重(~1.2B參數,Hugging Face:https://huggingface.co/tencent/HY-World-2.0)。其餘即將跟進:
- 已開源:
- ✅ 技術報告。
- ✅ WorldMirror 2.0程式碼與檢查點(多視圖/影片→3D重建)。
- 即將開源:
- ⬜ 完整世界生成推論程式碼(WorldNav + 世界合成)。
- ⬜ HY-Pano 2.0模型與程式碼(暫用HunyuanWorld 1.0替代)。
- ⬜ WorldStereo 2.0模型與程式碼(暫用https://github.com/FuchengSu/WorldStereo)。
- ⬜ WorldNav軌跡規劃程式碼。
- ⬜ 全景生成(HY-Pano 2.0)。
模型動物園:
WorldMirror系列(重建)
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldMirror-2 [新] | 多視圖/影片→3D重建 | ~1.2B | 2026.4 | https://huggingface.co/tencent/HY-World-2.0/HY-WorldMirror-2.0 |
| WorldMirror-1 | 舊版重建 | ~1.2B | 2025.10 | https://huggingface.co/tencent/HunyuanWorld-Mirror |
HY-Pano系列(全景生成)
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|---|---|---|---|---|
| HY-Pano-2 [新] | 文字/圖像→360°全景 | — | 即將 | — |
WorldStereo系列(世界擴展)
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldStereo-2 [新] | 全景→3DGS世界 | — | 即將 | — |
WorldNav系列(空間規劃)
| 演算法 | 描述 | 參數 | 日期 |
|---|---|---|---|
| WorldNav [新] | 全景→相機軌跡 | — | 即將 |
GitHub:https://github.com/Tencent-Hunyuan/HY-World-2.0;Discord社群與X帳號提供支援。
快速入門指南
推薦CUDA 12.4環境。安裝步驟:
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
# 安裝FlashAttention-3(推薦)或pip install flash-attn --no-build-isolation
WorldMirror 2.0程式碼使用(diffusers風格API,首次自動下載權重):
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
result = pipeline('path/to/images') # 支援prior注入如相機/深度
CLI單GPU:python -m hyworld2.worldrecon.pipeline --input_path path/to/images;多GPU需輸入圖像數≥GPU數。
Gradio Web Demo:上傳圖像/影片,即時視覺化3DGS、點雲等:
python -m hyworld2.worldrecon.gradio_app # 或多GPU模式
詳見DOCUMENTATION.md,包括prior準備指南。
效能基準與SOTA表現
HY-World 2.0在多項基準稱霸,技術報告詳載(https://3d-models.hunyuan.tencent.com/world/)。
WorldStereo 2.0 - 相機控制(↓越小越好,↑越大越好):
| 方法 | RotErr ↓ | TransErr ↓ | ATE ↓ | Q-Align ↑ | CLIP-IQA+ ↑ | Laion-Aes ↑ | CLIP-I ↑ |
|---|---|---|---|---|---|---|---|
| SEVA | 1.690 | 1.578 | 2.879 | 3.232 | 0.479 | 4.623 | 77.16 |
| Gen3C | 0.944 | 1.580 | 2.789 | 3.353 | 0.489 | 4.863 | 82.33 |
| WorldStereo | 0.762 | 1.245 | 2.141 | 4.149 | 0.547 | 5.257 | 89.05 |
| WorldStereo 2.0 | 0.492 | 0.968 | 1.768 | 4.205 | 0.544 | 5.266 | 89.43 |
WorldStereo 2.0 - 單視圖生成重建(Tanks-and-Temples與MipNeRF360,粗體最佳,_底線_次佳):
| 方法 | Tanks-and-Temples Precision ↑ | Recall ↑ | F1 ↑ | AUC ↑ | MipNeRF360 Precision ↑ | Recall ↑ | F1 ↑ | AUC ↑ |
|---|---|---|---|---|---|---|---|---|
| SEVA | 33.59 | 35.34 | 36.73 | 51.03 | 22.38 | 55.63 | 28.75 | 46.81 |
| Gen3C | 46.73 | 25.51 | 31.24 | 42.44 | 23.28 | 75.37 | 35.26 | 52.10 |
| Lyra | 50.38 | 28.67 | 32.54 | 43.05 | 30.02 | 58.60 | 36.05 | 49.89 |
| FlashWorld | 26.58 | 20.72 | 22.29 | 30.45 | 35.97 | 53.77 | 42.60 | 53.86 |
| WorldStereo 2.0 | 43.62 | 41.02 | 41.43 | 58.19 | 43.19 | 65.32 | 51.27 | 65.79 |
| WorldStereo 2.0 (DMD) | 40.41 | 44.41 | 43.16 | 60.09 | 42.34 | 64.83 | 50.52 | 65.64 |
WorldMirror 2.0 - 點圖重建(7-Scenes、NRGBD、DTU,Acc/Comp ↓越小越好;L/M/H為低/中/高解析度,+ all priors注入相機外內參與深度):
| 方法 | 7-Scenes Acc ↓ | Comp ↓ | NRGBD Acc ↓ | Comp ↓ | DTU Acc ↓ | Comp ↓ |
|---|---|---|---|---|---|---|
| WorldMirror 2.0 H + all priors | 0.012 | 0.016 | 0.015 | 0.016 | 0.554 | 0.771 |
| WorldMirror 2.0 M + all priors | 0.013 | 0.017 | 0.013 | 0.013 | 0.690 | 0.876 |
WorldMirror 2.0在prior比較中優於Pow3R與MapAnything,尤其高解析+全prior下表現最佳。
引用與聯絡
研究引用:
@article{hyworld22026,
title={HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds},
author={Tencent HY-World Team},
journal={arXiv preprint},
year={2026}
}
問題回饋至[email protected]。感謝HunyuanWorld 1.0、WorldMirror等前作基礎。
We’re open-sourcing HY-World 2.0, a multimodal world model that generates, reconstructs, and simulates interactive *3D worlds* from text, images, and videos.
— Tencent HY (@TencentHunyuan) April 16, 2026
Outputs can be integrated into game engines and embodied simulation pipelines.
Key highlights:
🔹 One-click world… pic.twitter.com/OuKEm9krn4
