← 返回首頁

NVIDIA推出Asset Harvester,從自動駕駛影片中提取即時3D asset

Kangxue Yin
Kangxue Yin
@kangxue_yin
478🔁 81
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

NVIDIA推出Asset Harvester,從自動駕駛影片中提取即時3D asset。

Asset Harvester是NVIDIA發布的image-to-3D模型與End to End (端到端)管線,能將真實駕駛記錄中的稀疏物件觀測轉換為完整、模擬就緒的3D asset,解決神經場景重建無法產生完整物件asset的痛點,直接整合至NVIDIA NCore與NuRec環境,支持閉環模擬測試與Agent操作。

核心挑戰與解決方案
傳統神經場景重建雖能將駕駛記錄轉為互動3D環境,但無法生成完整3D物件asset,限制Agent操控與大視角新視圖合成。Asset Harvester透過系統級設計應對此問題,包括大規模物件導向訓練元組整理、異質感測器幾何感知預處理,以及結合稀疏視圖條件多視圖生成與3D Gaussian提升的穩健訓練配方。其中,SparseViewDiT專為有限角度視圖與真實世界資料挑戰設計,搭配混合資料整理、增強與自蒸餾,實現稀疏自動駕駛物件觀測的可擴展轉換為可重用3D asset。

處理真實世界資料特性
Asset Harvester僅需1至數個in-the-wild物件視圖,即能處理車輛、行人、騎士与其他道路物件,即使面對嚴重遮擋、雜訊校準與極端視角偏差。

  • 多視圖擴散模型生成一致新視圖。
  • 前饋Gaussian重建器在數秒內提升至完整3D。
    輸出高保真3D Gaussian splat asset,可直接插入模擬環境,支持NuRec等物件級操控。

管線流程
完整管線從NCore V4資料開始,經NCore解析、多視圖擴散與Gaussian提升,生成metadata.yaml(用於NuRec物件插入)。
示例如輸入單視圖frame.jpeg與mask.png(512x512),經camera estimator處理後輸出3D asset;卡車範例同樣僅需單圖,即生成16視圖擴散與Gaussian lifting動畫。端到端工作流程詳見docs/end_to_end_example.md,從原始NCore駕駛記錄至metadata生成一氣呵成。

實際應用成果

  • Image-to-3D測試涵蓋車輛與脆弱道路使用者(VRU,如行人)。
  • OOD(Out-of-Distribution)圖像測試,證明泛化能力。
  • 與Kimodo及SOMA整合,動畫化VRU asset。
  • 合成資料生成(SDG):模擬行人穿越馬路險被失控旋轉車輛擦過,或ego車轉彎遇障礙、VRU後停車再左轉等閉環情境。

程式碼與部署指南
GitHub程式庫(https://github.com/nvidia/asset-harvester/)提供Apache 2.0授權,包含arXiv論文(https://arxiv.org/abs/2604.18468)、Hugging Face模型(https://huggingface.co/nvidia/asset-harvester)與NCore資料集(https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicles-NCore)。
環境需求

  • NVIDIA驅動 >=570(CUDA 12.8相容)。
  • GCC 10–13(測試GCC 12.3)。
  • GPU VRAM ~16GB(可用--offload_model_to_cpu減輕)。
    初始設定約20分鐘:
git clone https://github.com/NVIDIA/asset-harvester.git  
cd asset-harvester  
bash setup.sh  
conda activate asset-harvester  

下載檢查點:hf download nvidia/asset-harvester --local-dir checkpoints,包含AH_multiview_diffusion.safetensors、AH_tokengs_lifting.safetensors等。

推論使用方式
Image-to-3D快速啟動:使用data_samples/rectified_AV_objects/範例,執行run_inference.py:

export DATA_ROOT=data_samples/rectified_AV_objects/  
export CHECKPOINT_MV=checkpoints/AH_multiview_diffusion.safetensors  
export CHECKPOINT_GS=checkpoints/AH_tokengs_lifting.safetensors  
export OUTPUT_DIR=outputs/harvesting  
python3 run_inference.py --diffusion_checkpoint "${CHECKPOINT_MV}" --data_root "${DATA_ROOT}" --output_dir "${OUTPUT_DIR}" --lifting_checkpoint "${CHECKPOINT_GS}"  

無mask時,用AH_object_seg_jit.pt生成mask.png(見data_samples/OOD_images)。單圖帶camera estimate:新增--ahc_checkpoint "${CHECKPOINT_CAM}"與--image_dir。

程式庫結構

asset-harvester/  
├── asset_harvester/  
│   ├── camera_estimator/     # 相機姿勢估計器  
│   ├── multiview_diffusion/  # SparseViewDiT  
│   ├── ncore_parser/         # NCore解析器+CLI  
│   ├── patches/              # 相容性修補  
│   ├── tokengs/              # TokenGS+訓練入口  
│   └── utils/                # 共享工具  
├── benchmark/                # 評估工具(即將推出)  
├── data_samples/             # 範例資料  
├── docs/                     # 文件與範例  
├── scripts/                  # 腳本如run_ncore_parser.sh  
├── run_inference.py          # 主要推論入口  
└── setup.sh  

限制與免責
專為自動駕駛領域訓練,其他領域結果不保證。AI模型輸出基於複雜演算法,可能不準確或具冒犯性,使用者下載即承擔風險,並同意授權條款。Benchmark即將推出。

引用資訊
論文標題「Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation」,作者包括Tianshi Cao*、Jiawei Ren*、Yuxuan Zhang等,Sanja Fidler與Kangxue Yin*†,年份2026。網站:https://research.nvidia.com/labs/sil/projects/asset-harvester/。此技術強化AV開發閉環模擬,從稀疏真實資料高效生成高品質asset,推动可擴展測試與安全驗證。