← 返回首頁

FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失

Zhijian Liu
Zhijian Liu
@zhijianliu_
360🔁 51
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。

FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、Hongfei Zhang、Jian Chen及Zhijian Liu領導開發,將Alpamayo 1.5(10B參數,基於Qwen3-VL)在NVIDIA RTX PRO 6000上的每步延遲從716ms(約1.4Hz)壓縮至159ms(最高5.7倍加速),滿足即時駕駛需求,程式碼與模型檢查點即將開源。

傳統系統局限

傳統自動駕駛系統將感知與規劃分離,在真實世界罕見複雜「長尾」情境中極易崩潰。VLA模型則整合End to End (端到端)思維鏈推理,能逐步思考新穎情況,產生明確推理軌跡與軌跡預測,今年NVIDIA發布產業首個開源推理VLA模型「Alpamayo 1」及「Alpamayo 1.5」,但推理耗時嚴重阻礙即時應用。

瓶頸全面剖析

VLA推理分四階段:視覺編碼、提示預填充、推理token解碼、flow matching動作生成,剖析Alpamayo 1.5顯示延遲均勻分布無單一主導瓶頸,需全棧優化才能接近即時。

串流推理優化

駕駛VLA需連續處理多相機影片流,每步滑動視窗涵蓋4幀×4視角,相鄰步驟重疊75%(前三幀相同),傳統每步全重新編碼浪費大量計算。

  • 僅處理新幀,KV快取重用前三幀消除75%視覺計算。
  • Pre-RoPE鍵快取與即時旋轉嵌入處理動態位置偏移(舊幀淘汰、新幀進入)。
  • 自訂串流注意力遮罩適應視角優先token排序,新幀僅關注當前及先前視角,維持因果性。

此舉有效序列長減75%,加速編碼與預填充階段。但串流KV快取為近似值(舊鍵值基於不同注意力上下文),損害精度,全VLM微調反而惡化,因推理token自迴歸生成主要關注近期token,對陳舊快取穩健;動作專家則跨注意力整合全KV快取產生連續軌跡,放大分布偏差。解決之道:凍結VLM僅微調動作專家,透過多步串流填充KV快取(無梯度),最終步啟用梯度,精準恢復基線精度。

推測推理加速

VLA長尾強項來自生成顯式推理token(如因果鏈軌跡,約16 token),但自迴歸逐token解碼成最大瓶頸。駕駛領域推理易草稿:序列短、結構模板固定、豐富視覺上下文決定多數內容,token熵遠低於開放語言生成,適合高接受率推測解碼。

  • 採用DFlash區塊擴散模型平行草稿整塊候選(非逐token),單次前向捕捉區塊內相關性。
  • 推測驗證保證輸出分布與標準自迴歸相同,零品質損失。

DFlash開源於github.com/z-lab/dflash,支持Qwen3.5系列(如Qwen3.5-27B、Qwen3.5-35B-A3B)、Llama-3.1-8B-Instruct等多模型,整合vLLM、SGLang、Transformers、MLX後端,即插即用。例如vLLM啟動:vllm serve Qwen/Qwen3.5-27B --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}',基準測試gsm8k等資料集顯示高效加速。

自適應步進Flow Matching

VLA需橋接語言推理與連續車輛控制,標準flow matching頭用10去噪步驟轉換推理為軌跡路徑點,均勻少步損害品質,因速度場非均勻:剖析顯示U形模式,首尾步驟變化劇烈,中間近恆定。

  • 物理解釋:早期步建立粗軌跡結構(車道選擇、轉彎方向),末期步對齊物理可行流形(運動學約束、道路幾何),中間僅微調已定路径,端點攜帶訊號、中間僅慣性。
  • 快取中間速度重用而非重算,集中計算於關鍵步驟,縮短動作生成時間維持軌跡品質。

W4A8量化壓縮

量化壓低權重與激活精度換取速度,標準AWQ僅權重4位(W4A16)助解碼記憶體綁定,但忽略預填充計算綁定;VLA提示含數千視覺token,預填充不可忽視。

  • ParoQuant W4A8同時擊中兩瓶頸:4位權重減解碼記憶體頻寬,8位激活解鎖INT8矩陣乘加速預填充。
  • VLA推理鏈(每步~16 token)累積量化誤差,AWQ殘留權重離群值致軌跡漂移;ParoQuant配對旋轉徹底壓制離群,控制累積誤差。

ParoQuant開源於github.com/z-lab/paroquant,支持NVIDIA GPU(vLLM、Transformers)及Apple Silicon(MLX),提供Qwen3.5-4B-PARO等模型,安裝pip install "paroquant[vllm]",聊天python -m paroquant.cli.chat --model z-lab/Qwen3.5-4B-PARO,arXiv 2511.10645驗證接近FP16精度、近AWQ速度。

系統級工程強化

VLA管線異質(視覺編碼、語言處理、自迴歸解碼、擴散動作生成),演算法優化需配系統工程:

  • CUDA Graphs:編譯四階段管線消除CPU調度開銷。
  • Kernel Fusion:融合Q/K/V投影單kernel,MLP內閘與上投影合併,max-autotune編譯元素運算與歸約,消弭記憶體往返與啟動間隙。

性能成果與影響

FlashDrive = 串流推理 + DFlash推測推理 + ParoQuant W4A8,端到端延遲159ms(RTX PRO 6000),4.5倍加速零精度損失,各階段冗餘正交,加速疊加。超越駕駛,適用任何延遲受限VLA部署,單GPU sub-200ms推理使具思維鏈VLA即時可行,不犧牲長尾強項。專案網站z-lab.ai/projects/flashdrive/,由Richard91316073及YihaoLiang01主導,貢獻者hongfeizhang0xF、jianchen1799。

DFlash細節擴展

DFlash為輕量區塊擴散模型,專為推測解碼設計,平行高效草稿。支持模型包括:

  • Qwen3.6-35B-A3B (Preview):z-lab/Qwen3.6-35B-A3B-DFlash
  • Qwen3.5-4B/9B/27B/35B-A3B等
  • Qwen3-Coder系列、gpt-oss-20b/120b
  • Llama-3.1-8B-Instruct

安裝分後端:Transformers uv pip install -e ".[transformers]",vLLM需nightly build。快速啟動如SGLang伺服器設定--speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash,MLX支援Apple M5 Pro。基準gsm8k、math500、humanEval等自動下載評估,論文arXiv:2602.06036。

ParoQuant細節擴展

ParoQuant為狀態藝術INT4量化,學配對旋轉壓制權重離群,精度追FP16、速度近AWQ。模型涵蓋:

  • Qwen3.5-0.8B/2B/4B/9B/27B/35B-A3B-PARO
  • Qwen3系列、Llama-2-7B/3-8B/3.1-8B-Instruct-PARO
  • Gemma-4-31B-it-PARO

Docker映像ghcr.io/z-lab/paroquant:chat/serve,自量化腳本experiments/optimize/4bit.sh Qwen/Qwen3-8B,ICLR 2026論文。這些開源元件已即時可用,FlashDrive展現演算法-系統共設計如何解鎖VLA實戰潛力。