NVIDIA推出Asset Harvester,從自動駕駛影片中提取即時3D asset
AI 語音朗讀 · Edge TTS
NVIDIA推出Asset Harvester,從自動駕駛影片中提取即時3D asset。
Asset Harvester是NVIDIA發布的image-to-3D模型與End to End (端到端)管線,能將真實駕駛記錄中的稀疏物件觀測轉換為完整、模擬就緒的3D asset,解決神經場景重建無法產生完整物件asset的痛點,直接整合至NVIDIA NCore與NuRec環境,支持閉環模擬測試與Agent操作。
核心挑戰與解決方案
傳統神經場景重建雖能將駕駛記錄轉為互動3D環境,但無法生成完整3D物件asset,限制Agent操控與大視角新視圖合成。Asset Harvester透過系統級設計應對此問題,包括大規模物件導向訓練元組整理、異質感測器幾何感知預處理,以及結合稀疏視圖條件多視圖生成與3D Gaussian提升的穩健訓練配方。其中,SparseViewDiT專為有限角度視圖與真實世界資料挑戰設計,搭配混合資料整理、增強與自蒸餾,實現稀疏自動駕駛物件觀測的可擴展轉換為可重用3D asset。
處理真實世界資料特性
Asset Harvester僅需1至數個in-the-wild物件視圖,即能處理車輛、行人、騎士与其他道路物件,即使面對嚴重遮擋、雜訊校準與極端視角偏差。
- 多視圖擴散模型生成一致新視圖。
- 前饋Gaussian重建器在數秒內提升至完整3D。
輸出高保真3D Gaussian splat asset,可直接插入模擬環境,支持NuRec等物件級操控。
管線流程
完整管線從NCore V4資料開始,經NCore解析、多視圖擴散與Gaussian提升,生成metadata.yaml(用於NuRec物件插入)。
示例如輸入單視圖frame.jpeg與mask.png(512x512),經camera estimator處理後輸出3D asset;卡車範例同樣僅需單圖,即生成16視圖擴散與Gaussian lifting動畫。端到端工作流程詳見docs/end_to_end_example.md,從原始NCore駕駛記錄至metadata生成一氣呵成。
實際應用成果
- Image-to-3D測試涵蓋車輛與脆弱道路使用者(VRU,如行人)。
- OOD(Out-of-Distribution)圖像測試,證明泛化能力。
- 與Kimodo及SOMA整合,動畫化VRU asset。
- 合成資料生成(SDG):模擬行人穿越馬路險被失控旋轉車輛擦過,或ego車轉彎遇障礙、VRU後停車再左轉等閉環情境。
程式碼與部署指南
GitHub程式庫(https://github.com/nvidia/asset-harvester/)提供Apache 2.0授權,包含arXiv論文(https://arxiv.org/abs/2604.18468)、Hugging Face模型(https://huggingface.co/nvidia/asset-harvester)與NCore資料集(https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicles-NCore)。
環境需求:
- NVIDIA驅動 >=570(CUDA 12.8相容)。
- GCC 10–13(測試GCC 12.3)。
- GPU VRAM ~16GB(可用--offload_model_to_cpu減輕)。
初始設定約20分鐘:
git clone https://github.com/NVIDIA/asset-harvester.git
cd asset-harvester
bash setup.sh
conda activate asset-harvester
下載檢查點:hf download nvidia/asset-harvester --local-dir checkpoints,包含AH_multiview_diffusion.safetensors、AH_tokengs_lifting.safetensors等。
推論使用方式
Image-to-3D快速啟動:使用data_samples/rectified_AV_objects/範例,執行run_inference.py:
export DATA_ROOT=data_samples/rectified_AV_objects/
export CHECKPOINT_MV=checkpoints/AH_multiview_diffusion.safetensors
export CHECKPOINT_GS=checkpoints/AH_tokengs_lifting.safetensors
export OUTPUT_DIR=outputs/harvesting
python3 run_inference.py --diffusion_checkpoint "${CHECKPOINT_MV}" --data_root "${DATA_ROOT}" --output_dir "${OUTPUT_DIR}" --lifting_checkpoint "${CHECKPOINT_GS}"
無mask時,用AH_object_seg_jit.pt生成mask.png(見data_samples/OOD_images)。單圖帶camera estimate:新增--ahc_checkpoint "${CHECKPOINT_CAM}"與--image_dir。
程式庫結構
asset-harvester/
├── asset_harvester/
│ ├── camera_estimator/ # 相機姿勢估計器
│ ├── multiview_diffusion/ # SparseViewDiT
│ ├── ncore_parser/ # NCore解析器+CLI
│ ├── patches/ # 相容性修補
│ ├── tokengs/ # TokenGS+訓練入口
│ └── utils/ # 共享工具
├── benchmark/ # 評估工具(即將推出)
├── data_samples/ # 範例資料
├── docs/ # 文件與範例
├── scripts/ # 腳本如run_ncore_parser.sh
├── run_inference.py # 主要推論入口
└── setup.sh
限制與免責
專為自動駕駛領域訓練,其他領域結果不保證。AI模型輸出基於複雜演算法,可能不準確或具冒犯性,使用者下載即承擔風險,並同意授權條款。Benchmark即將推出。
引用資訊
論文標題「Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation」,作者包括Tianshi Cao*、Jiawei Ren*、Yuxuan Zhang等,Sanja Fidler與Kangxue Yin*†,年份2026。網站:https://research.nvidia.com/labs/sil/projects/asset-harvester/。此技術強化AV開發閉環模擬,從稀疏真實資料高效生成高品質asset,推动可擴展測試與安全驗證。
🚀We just released Asset Harvester, an image-to-3D model and end-to-end pipeline that extracts real object assets from autonomous driving videos!
— Kangxue Yin (@kangxue_yin) April 21, 2026
🌐 Website: https://t.co/fvu4OMiTTs
💻 Code: https://t.co/fqqoBgLsGq
[1/5]#AssetHarvester #AVSimulation #WorldModel… pic.twitter.com/F1Zlw6oOPY
