← 返回首頁

騰訊開源HY-World 2.0,多模態世界模型從文字、圖像、影片生成可編輯3D世界

Tencent HY
Tencent HY
@TencentHunyuan
1,981🔁 330
𝕏 (Twitter)🔥🔥
AI 中文摘要Claude 生成

騰訊開源HY-World 2.0,多模態世界模型從文字、圖像、影片生成可編輯3D世界。

HY-World 2.0是騰訊Hunyuan團隊推出的多模態世界模型框架,專注於3D世界的生成與重建,能從文字、單視圖圖像、多視圖圖像或影片產生高保真、可導航的3D資產如網格(meshes)、3DGS與點雲,直接匯入Unity、Unreal Engine或Isaac Sim等遊戲引擎。相較傳統影片世界模型如Genie 3、Cosmos與HY-World 1.5僅產生「看完即逝的影片」,HY-World 2.0強調「建構永存可玩遊戲」,解決影片模型的閃爍、不一致與高延遲痛點,已於2026年4月16日釋出技術報告與WorldMirror 2.0程式碼與權重,其餘模組即將開源。

核心架構與流程

HY-World 2.0採用四階段管線,從文字或單張圖像自動轉換為高保真3D世界:

  • 全景生成(HY-Pano 2.0):文字/圖像→360°全景。
  • 軌跡規劃(WorldNav):全景→相機軌跡。
  • 世界擴展(WorldStereo 2.0):全景→3DGS世界。
  • 世界合成(WorldMirror 2.0 + 3DGS學習):整合成最終3D資產。

重建功能由WorldMirror 2.0驅動,這是統一的前饋模型,在單次前向傳遞中同時預測深度圖、表面法線、相機參數、3D點雲與3DGS屬性,支持50K–500K像素彈性解析度。官方強調這是開源SOTA(state-of-the-art)水準,成果媲美封閉源碼如Marble。

與影片世界模型的根本差異

HY-World 2.0批判傳統影片世界模型僅輸出像素影片,等同「看電影結束即消失」,缺乏持久性與可控性。相較之下,HY-World 2.0直接產生真實3D asset,可無限探索、即時渲染,並具相容遊戲引擎優勢:

面向 影片世界模型 HY-World 2.0 (3D世界模型)
輸出 像素影片(不可編輯) 真實3D asset(網格/3DGS,完全可編輯)
可玩持續時間 有限(通常1分鐘) 無限(asset永久存在)
3D一致性 無(多視圖閃爍、偽影) 原生一致
即時渲染 每幀推論,高延遲 消費級GPU即時渲染
可控性 弱(角色控制不精準,無真實物理) 精準(零誤差控制、真實物理碰撞、準確光照)
推論成本 每次互動累積 一次性生成,渲染成本≈0
引擎相容 ✗ 僅影片檔 ✓ 直接匯入Blender/UE/Isaac Engine
本質 看影片,結束即沒 建構世界,永存不滅

所有示範GIF均為真實3D asset的即時互動捕捉,非生成影片。

主要亮點功能

  • 一鍵世界生成:文字或圖像自動轉互動3D世界,支持寫實、卡通、遊戲等多樣風格,可自由探索街道、建築與景觀。
  • 即時3D重建:從照片或隨手影片產生數位孿生,WorldMirror 2.0單次前向預測密集點雲、深度圖等。
  • 互動角色模式:支援第一人稱導航與第三人稱角色,具物理感知移動與碰撞;官方產品頁https://3d.hunyuan.tencent.com/sceneTo3D提供免費試用(目前非常擁擠,請耐心)。
  • 管線就緒輸出:標準3D匯出格式,包括mesh、3DGS與點雲,直接整合遊戲引擎與具身模擬管線。

開源進度與模型動物園

2026年4月16日釋出HY-World 2.0技術報告(https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)、WorldMirror 2.0推論程式碼與權重(~1.2B參數,Hugging Face:https://huggingface.co/tencent/HY-World-2.0)。其餘即將跟進:

  • 已開源
    • ✅ 技術報告。
    • ✅ WorldMirror 2.0程式碼與檢查點(多視圖/影片→3D重建)。
  • 即將開源
    • ⬜ 完整世界生成推論程式碼(WorldNav + 世界合成)。
    • ⬜ HY-Pano 2.0模型與程式碼(暫用HunyuanWorld 1.0替代)。
    • ⬜ WorldStereo 2.0模型與程式碼(暫用https://github.com/FuchengSu/WorldStereo)。
    • ⬜ WorldNav軌跡規劃程式碼。
    • ⬜ 全景生成(HY-Pano 2.0)。

模型動物園

WorldMirror系列(重建)

模型 描述 參數 日期 Hugging Face
WorldMirror-2 [新] 多視圖/影片→3D重建 ~1.2B 2026.4 https://huggingface.co/tencent/HY-World-2.0/HY-WorldMirror-2.0
WorldMirror-1 舊版重建 ~1.2B 2025.10 https://huggingface.co/tencent/HunyuanWorld-Mirror

HY-Pano系列(全景生成)

模型 描述 參數 日期 Hugging Face
HY-Pano-2 [新] 文字/圖像→360°全景 即將

WorldStereo系列(世界擴展)

模型 描述 參數 日期 Hugging Face
WorldStereo-2 [新] 全景→3DGS世界 即將

WorldNav系列(空間規劃)

演算法 描述 參數 日期
WorldNav [新] 全景→相機軌跡 即將

GitHub:https://github.com/Tencent-Hunyuan/HY-World-2.0;Discord社群與X帳號提供支援。

快速入門指南

推薦CUDA 12.4環境。安裝步驟:

git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
# 安裝FlashAttention-3(推薦)或pip install flash-attn --no-build-isolation

WorldMirror 2.0程式碼使用(diffusers風格API,首次自動下載權重):

from hyworld2.worldrecon.pipeline import WorldMirrorPipeline
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
result = pipeline('path/to/images')  # 支援prior注入如相機/深度

CLI單GPU:python -m hyworld2.worldrecon.pipeline --input_path path/to/images;多GPU需輸入圖像數≥GPU數。

Gradio Web Demo:上傳圖像/影片,即時視覺化3DGS、點雲等:

python -m hyworld2.worldrecon.gradio_app  # 或多GPU模式

詳見DOCUMENTATION.md,包括prior準備指南。

效能基準與SOTA表現

HY-World 2.0在多項基準稱霸,技術報告詳載(https://3d-models.hunyuan.tencent.com/world/)。

WorldStereo 2.0 - 相機控制(↓越小越好,↑越大越好):

方法 RotErr ↓ TransErr ↓ ATE ↓ Q-Align ↑ CLIP-IQA+ ↑ Laion-Aes ↑ CLIP-I ↑
SEVA 1.690 1.578 2.879 3.232 0.479 4.623 77.16
Gen3C 0.944 1.580 2.789 3.353 0.489 4.863 82.33
WorldStereo 0.762 1.245 2.141 4.149 0.547 5.257 89.05
WorldStereo 2.0 0.492 0.968 1.768 4.205 0.544 5.266 89.43

WorldStereo 2.0 - 單視圖生成重建(Tanks-and-Temples與MipNeRF360,粗體最佳,_底線_次佳):

方法 Tanks-and-Temples Precision ↑ Recall ↑ F1 ↑ AUC ↑ MipNeRF360 Precision ↑ Recall ↑ F1 ↑ AUC ↑
SEVA 33.59 35.34 36.73 51.03 22.38 55.63 28.75 46.81
Gen3C 46.73 25.51 31.24 42.44 23.28 75.37 35.26 52.10
Lyra 50.38 28.67 32.54 43.05 30.02 58.60 36.05 49.89
FlashWorld 26.58 20.72 22.29 30.45 35.97 53.77 42.60 53.86
WorldStereo 2.0 43.62 41.02 41.43 58.19 43.19 65.32 51.27 65.79
WorldStereo 2.0 (DMD) 40.41 44.41 43.16 60.09 42.34 64.83 50.52 65.64

WorldMirror 2.0 - 點圖重建(7-Scenes、NRGBD、DTU,Acc/Comp ↓越小越好;L/M/H為低/中/高解析度,+ all priors注入相機外內參與深度):

方法 7-Scenes Acc ↓ Comp ↓ NRGBD Acc ↓ Comp ↓ DTU Acc ↓ Comp ↓
WorldMirror 2.0 H + all priors 0.012 0.016 0.015 0.016 0.554 0.771
WorldMirror 2.0 M + all priors 0.013 0.017 0.013 0.013 0.690 0.876

WorldMirror 2.0在prior比較中優於Pow3R與MapAnything,尤其高解析+全prior下表現最佳。

引用與聯絡

研究引用:

@article{hyworld22026,
  title={HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds},
  author={Tencent HY-World Team},
  journal={arXiv preprint},
  year={2026}
}

問題回饋至[email protected]。感謝HunyuanWorld 1.0、WorldMirror等前作基礎。