# 騰訊開源HY-World 2.0，多模態世界模型從文字、圖像、影片生成可編輯3D世界

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Tencent HY (@TencentHunyuan) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-04-17

> 原始來源：https://x.com/TencentHunyuan/status/2044604754836505076

## 中文摘要

騰訊開源HY-World 2.0，多模態世界模型從文字、圖像、影片生成可編輯3D世界。

HY-World 2.0是騰訊Hunyuan團隊推出的多模態世界模型框架，專注於3D世界的生成與重建，能從文字、單視圖圖像、多視圖圖像或影片產生高保真、可導航的3D資產如網格（meshes）、3DGS與點雲，直接匯入Unity、Unreal Engine或Isaac Sim等遊戲引擎。相較傳統影片世界模型如Genie 3、Cosmos與HY-World 1.5僅產生「看完即逝的影片」，HY-World 2.0強調「建構永存可玩遊戲」，解決影片模型的閃爍、不一致與高延遲痛點，已於2026年4月16日釋出技術報告與WorldMirror 2.0程式碼與權重，其餘模組即將開源。

**核心架構與流程**

HY-World 2.0採用四階段管線，從文字或單張圖像自動轉換為高保真3D世界：
- 全景生成（HY-Pano 2.0）：文字/圖像→360°全景。
- 軌跡規劃（WorldNav）：全景→相機軌跡。
- 世界擴展（WorldStereo 2.0）：全景→3DGS世界。
- 世界合成（WorldMirror 2.0 + 3DGS學習）：整合成最終3D資產。

重建功能由WorldMirror 2.0驅動，這是統一的前饋模型，在單次前向傳遞中同時預測深度圖、表面法線、相機參數、3D點雲與3DGS屬性，支持50K–500K像素彈性解析度。官方強調這是開源SOTA（state-of-the-art）水準，成果媲美封閉源碼如Marble。

**與影片世界模型的根本差異**

HY-World 2.0批判傳統影片世界模型僅輸出像素影片，等同「看電影結束即消失」，缺乏持久性與可控性。相較之下，HY-World 2.0直接產生真實3D asset，可無限探索、即時渲染，並具相容遊戲引擎優勢：

| 面向 | 影片世界模型 | HY-World 2.0 (3D世界模型) |
|------|-------------|--------------------------|
| **輸出** | 像素影片（不可編輯） | 真實3D asset（網格/3DGS，完全可編輯） |
| **可玩持續時間** | 有限（通常1分鐘） | 無限（asset永久存在） |
| **3D一致性** | 無（多視圖閃爍、偽影） | 原生一致 |
| **即時渲染** | 每幀推論，高延遲 | 消費級GPU即時渲染 |
| **可控性** | 弱（角色控制不精準，無真實物理） | 精準（零誤差控制、真實物理碰撞、準確光照） |
| **推論成本** | 每次互動累積 | 一次性生成，渲染成本≈0 |
| **引擎相容** | ✗ 僅影片檔 | ✓ 直接匯入Blender/UE/Isaac Engine |
| **本質** | 看影片，結束即沒 | 建構世界，永存不滅 |

所有示範GIF均為真實3D asset的即時互動捕捉，非生成影片。

**主要亮點功能**

- **一鍵世界生成**：文字或圖像自動轉互動3D世界，支持寫實、卡通、遊戲等多樣風格，可自由探索街道、建築與景觀。
- **即時3D重建**：從照片或隨手影片產生數位孿生，WorldMirror 2.0單次前向預測密集點雲、深度圖等。
- **互動角色模式**：支援第一人稱導航與第三人稱角色，具物理感知移動與碰撞；官方產品頁https://3d.hunyuan.tencent.com/sceneTo3D提供免費試用（目前非常擁擠，請耐心）。
- **管線就緒輸出**：標準3D匯出格式，包括mesh、3DGS與點雲，直接整合遊戲引擎與具身模擬管線。

**開源進度與模型動物園**

2026年4月16日釋出HY-World 2.0技術報告（https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf）、WorldMirror 2.0推論程式碼與權重（~1.2B參數，Hugging Face：https://huggingface.co/tencent/HY-World-2.0）。其餘即將跟進：

- **已開源**：
  - ✅ 技術報告。
  - ✅ WorldMirror 2.0程式碼與檢查點（多視圖/影片→3D重建）。
- **即將開源**：
  - ⬜ 完整世界生成推論程式碼（WorldNav + 世界合成）。
  - ⬜ HY-Pano 2.0模型與程式碼（暫用HunyuanWorld 1.0替代）。
  - ⬜ WorldStereo 2.0模型與程式碼（暫用https://github.com/FuchengSu/WorldStereo）。
  - ⬜ WorldNav軌跡規劃程式碼。
  - ⬜ 全景生成（HY-Pano 2.0）。

**模型動物園**：

### WorldMirror系列（重建）
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|------|------|------|------|-------------|
| WorldMirror-2 [新] | 多視圖/影片→3D重建 | ~1.2B | 2026.4 | https://huggingface.co/tencent/HY-World-2.0/HY-WorldMirror-2.0 |
| WorldMirror-1 | 舊版重建 | ~1.2B | 2025.10 | https://huggingface.co/tencent/HunyuanWorld-Mirror |

### HY-Pano系列（全景生成）
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|------|------|------|------|-------------|
| HY-Pano-2 [新] | 文字/圖像→360°全景 | — | 即將 | — |

### WorldStereo系列（世界擴展）
| 模型 | 描述 | 參數 | 日期 | Hugging Face |
|------|------|------|------|-------------|
| WorldStereo-2 [新] | 全景→3DGS世界 | — | 即將 | — |

### WorldNav系列（空間規劃）
| 演算法 | 描述 | 參數 | 日期 |
|--------|------|------|------|
| WorldNav [新] | 全景→相機軌跡 | — | 即將 |

GitHub：https://github.com/Tencent-Hunyuan/HY-World-2.0；Discord社群與X帳號提供支援。

**快速入門指南**

推薦CUDA 12.4環境。安裝步驟：
```bash
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.10
conda activate hyworld2
pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
# 安裝FlashAttention-3（推薦）或pip install flash-attn --no-build-isolation
```

**WorldMirror 2.0程式碼使用**（diffusers風格API，首次自動下載權重）：
```python
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
result = pipeline('path/to/images')  # 支援prior注入如相機/深度
```
CLI單GPU：`python -m hyworld2.worldrecon.pipeline --input_path path/to/images`；多GPU需輸入圖像數≥GPU數。

**Gradio Web Demo**：上傳圖像/影片，即時視覺化3DGS、點雲等：
```bash
python -m hyworld2.worldrecon.gradio_app  # 或多GPU模式
```
詳見DOCUMENTATION.md，包括prior準備指南。

**效能基準與SOTA表現**

HY-World 2.0在多項基準稱霸，技術報告詳載（https://3d-models.hunyuan.tencent.com/world/）。

**WorldStereo 2.0 - 相機控制**（↓越小越好，↑越大越好）：
| 方法 | RotErr ↓ | TransErr ↓ | ATE ↓ | Q-Align ↑ | CLIP-IQA+ ↑ | Laion-Aes ↑ | CLIP-I ↑ |
|------|----------|------------|-------|-----------|-------------|-------------|----------|
| SEVA | 1.690 | 1.578 | 2.879 | 3.232 | 0.479 | 4.623 | 77.16 |
| Gen3C | 0.944 | 1.580 | 2.789 | 3.353 | 0.489 | 4.863 | 82.33 |
| WorldStereo | 0.762 | 1.245 | 2.141 | 4.149 | **0.547** | 5.257 | 89.05 |
| **WorldStereo 2.0** | **0.492** | **0.968** | **1.768** | **4.205** | 0.544 | **5.266** | **89.43** |

**WorldStereo 2.0 - 單視圖生成重建**（Tanks-and-Temples與MipNeRF360，**粗體**最佳，_底線_次佳）：
| 方法 | Tanks-and-Temples Precision ↑ | Recall ↑ | F1 ↑ | AUC ↑ | MipNeRF360 Precision ↑ | Recall ↑ | F1 ↑ | AUC ↑ |
|------|-------------------------------|----------|------|-------|-------------------------|----------|------|-------|
| SEVA | 33.59 | 35.34 | 36.73 | 51.03 | 22.38 | 55.63 | 28.75 | 46.81 |
| Gen3C | _46.73_ | 25.51 | 31.24 | 42.44 | 23.28 | **75.37** | 35.26 | 52.10 |
| Lyra | **50.38** | 28.67 | 32.54 | 43.05 | 30.02 | 58.60 | 36.05 | 49.89 |
| FlashWorld | 26.58 | 20.72 | 22.29 | 30.45 | 35.97 | 53.77 | 42.60 | 53.86 |
| WorldStereo 2.0 | 43.62 | _41.02_ | _41.43_ | _58.19_ | **43.19** | _65.32_ | **51.27** | **65.79** |
| WorldStereo 2.0 (DMD) | 40.41 | **44.41** | **43.16** | **60.09** | _42.34_ | 64.83 | _50.52_ | _65.64_ |

**WorldMirror 2.0 - 點圖重建**（7-Scenes、NRGBD、DTU，Acc/Comp ↓越小越好；L/M/H為低/中/高解析度，+ all priors注入相機外內參與深度）：
| 方法 | 7-Scenes Acc ↓ | Comp ↓ | NRGBD Acc ↓ | Comp ↓ | DTU Acc ↓ | Comp ↓ |
|------|----------------|--------|-------------|--------|-----------|--------|
| **WorldMirror 2.0 H + all priors** | **0.012** | **0.016** | 0.015 | 0.016 | **0.554** | **0.771** |
| WorldMirror 2.0 M + all priors | 0.013 | 0.017 | **0.013** | **0.013** | 0.690 | 0.876 |

WorldMirror 2.0在prior比較中優於Pow3R與MapAnything，尤其高解析+全prior下表現最佳。

**引用與聯絡**

研究引用：
```
@article{hyworld22026,
  title={HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds},
  author={Tencent HY-World Team},
  journal={arXiv preprint},
  year={2026}
}
```
問題回饋至tengfeiwang12@gmail.com。感謝HunyuanWorld 1.0、WorldMirror等前作基礎。

## 標籤

開源專案, AIGC, 新產品, Tencent, Hunyuan