# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Kangxue Yin (@kangxue_yin) · 平台：X (Twitter) · 日期：2026-04-22

> 原始來源：https://x.com/kangxue_yin/status/2046565843127980134

## 中文摘要

NVIDIA推出Asset Harvester，從自動駕駛影片中提取即時3D asset。

Asset Harvester是NVIDIA發布的image-to-3D模型與End to End (端到端)管線，能將真實駕駛記錄中的稀疏物件觀測轉換為完整、模擬就緒的3D asset，解決神經場景重建無法產生完整物件asset的痛點，直接整合至NVIDIA NCore與NuRec環境，支持閉環模擬測試與Agent操作。

**核心挑戰與解決方案**  
傳統神經場景重建雖能將駕駛記錄轉為互動3D環境，但無法生成完整3D物件asset，限制Agent操控與大視角新視圖合成。Asset Harvester透過系統級設計應對此問題，包括大規模物件導向訓練元組整理、異質感測器幾何感知預處理，以及結合稀疏視圖條件多視圖生成與3D Gaussian提升的穩健訓練配方。其中，SparseViewDiT專為有限角度視圖與真實世界資料挑戰設計，搭配混合資料整理、增強與自蒸餾，實現稀疏自動駕駛物件觀測的可擴展轉換為可重用3D asset。

**處理真實世界資料特性**  
Asset Harvester僅需1至數個in-the-wild物件視圖，即能處理車輛、行人、騎士与其他道路物件，即使面對嚴重遮擋、雜訊校準與極端視角偏差。  
- 多視圖擴散模型生成一致新視圖。  
- 前饋Gaussian重建器在數秒內提升至完整3D。  
輸出高保真3D Gaussian splat asset，可直接插入模擬環境，支持NuRec等物件級操控。

**管線流程**  
完整管線從NCore V4資料開始，經NCore解析、多視圖擴散與Gaussian提升，生成metadata.yaml（用於NuRec物件插入）。  
示例如輸入單視圖frame.jpeg與mask.png（512x512），經camera estimator處理後輸出3D asset；卡車範例同樣僅需單圖，即生成16視圖擴散與Gaussian lifting動畫。端到端工作流程詳見docs/end_to_end_example.md，從原始NCore駕駛記錄至metadata生成一氣呵成。

**實際應用成果**  
- Image-to-3D測試涵蓋車輛與脆弱道路使用者（VRU，如行人）。  
- OOD（Out-of-Distribution）圖像測試，證明泛化能力。  
- 與Kimodo及SOMA整合，動畫化VRU asset。  
- 合成資料生成（SDG）：模擬行人穿越馬路險被失控旋轉車輛擦過，或ego車轉彎遇障礙、VRU後停車再左轉等閉環情境。

**程式碼與部署指南**  
GitHub程式庫（https://github.com/nvidia/asset-harvester/）提供Apache 2.0授權，包含arXiv論文（https://arxiv.org/abs/2604.18468）、Hugging Face模型（https://huggingface.co/nvidia/asset-harvester）與NCore資料集（https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicles-NCore）。  
**環境需求**：  
- NVIDIA驅動 >=570（CUDA 12.8相容）。  
- GCC 10–13（測試GCC 12.3）。  
- GPU VRAM ~16GB（可用--offload_model_to_cpu減輕）。  
初始設定約20分鐘：  
```bash  
git clone https://github.com/NVIDIA/asset-harvester.git  
cd asset-harvester  
bash setup.sh  
conda activate asset-harvester  
```  
下載檢查點：hf download nvidia/asset-harvester --local-dir checkpoints，包含AH_multiview_diffusion.safetensors、AH_tokengs_lifting.safetensors等。

**推論使用方式**  
**Image-to-3D快速啟動**：使用data_samples/rectified_AV_objects/範例，執行run_inference.py：  
```bash  
export DATA_ROOT=data_samples/rectified_AV_objects/  
export CHECKPOINT_MV=checkpoints/AH_multiview_diffusion.safetensors  
export CHECKPOINT_GS=checkpoints/AH_tokengs_lifting.safetensors  
export OUTPUT_DIR=outputs/harvesting  
python3 run_inference.py --diffusion_checkpoint "${CHECKPOINT_MV}" --data_root "${DATA_ROOT}" --output_dir "${OUTPUT_DIR}" --lifting_checkpoint "${CHECKPOINT_GS}"  
```  
無mask時，用AH_object_seg_jit.pt生成mask.png（見data_samples/OOD_images）。單圖帶camera estimate：新增--ahc_checkpoint "${CHECKPOINT_CAM}"與--image_dir。

**程式庫結構**  
```
asset-harvester/  
├── asset_harvester/  
│   ├── camera_estimator/     # 相機姿勢估計器  
│   ├── multiview_diffusion/  # SparseViewDiT  
│   ├── ncore_parser/         # NCore解析器+CLI  
│   ├── patches/              # 相容性修補  
│   ├── tokengs/              # TokenGS+訓練入口  
│   └── utils/                # 共享工具  
├── benchmark/                # 評估工具（即將推出）  
├── data_samples/             # 範例資料  
├── docs/                     # 文件與範例  
├── scripts/                  # 腳本如run_ncore_parser.sh  
├── run_inference.py          # 主要推論入口  
└── setup.sh  
```

**限制與免責**  
專為自動駕駛領域訓練，其他領域結果不保證。AI模型輸出基於複雜演算法，可能不準確或具冒犯性，使用者下載即承擔風險，並同意授權條款。Benchmark即將推出。

**引用資訊**  
論文標題「Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation」，作者包括Tianshi Cao*、Jiawei Ren*、Yuxuan Zhang等，Sanja Fidler與Kangxue Yin*†，年份2026。網站：https://research.nvidia.com/labs/sil/projects/asset-harvester/。此技術強化AV開發閉環模擬，從稀疏真實資料高效生成高品質asset，推动可擴展測試與安全驗證。

## 標籤

新產品, Agent, AIGC, NVIDIA