FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失
AI 語音朗讀 · Edge TTS
FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。
FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、Hongfei Zhang、Jian Chen及Zhijian Liu領導開發,將Alpamayo 1.5(10B參數,基於Qwen3-VL)在NVIDIA RTX PRO 6000上的每步延遲從716ms(約1.4Hz)壓縮至159ms(最高5.7倍加速),滿足即時駕駛需求,程式碼與模型檢查點即將開源。
傳統系統局限
傳統自動駕駛系統將感知與規劃分離,在真實世界罕見複雜「長尾」情境中極易崩潰。VLA模型則整合End to End (端到端)思維鏈推理,能逐步思考新穎情況,產生明確推理軌跡與軌跡預測,今年NVIDIA發布產業首個開源推理VLA模型「Alpamayo 1」及「Alpamayo 1.5」,但推理耗時嚴重阻礙即時應用。
瓶頸全面剖析
VLA推理分四階段:視覺編碼、提示預填充、推理token解碼、flow matching動作生成,剖析Alpamayo 1.5顯示延遲均勻分布無單一主導瓶頸,需全棧優化才能接近即時。
串流推理優化
駕駛VLA需連續處理多相機影片流,每步滑動視窗涵蓋4幀×4視角,相鄰步驟重疊75%(前三幀相同),傳統每步全重新編碼浪費大量計算。
- 僅處理新幀,KV快取重用前三幀消除75%視覺計算。
- Pre-RoPE鍵快取與即時旋轉嵌入處理動態位置偏移(舊幀淘汰、新幀進入)。
- 自訂串流注意力遮罩適應視角優先token排序,新幀僅關注當前及先前視角,維持因果性。
此舉有效序列長減75%,加速編碼與預填充階段。但串流KV快取為近似值(舊鍵值基於不同注意力上下文),損害精度,全VLM微調反而惡化,因推理token自迴歸生成主要關注近期token,對陳舊快取穩健;動作專家則跨注意力整合全KV快取產生連續軌跡,放大分布偏差。解決之道:凍結VLM僅微調動作專家,透過多步串流填充KV快取(無梯度),最終步啟用梯度,精準恢復基線精度。
推測推理加速
VLA長尾強項來自生成顯式推理token(如因果鏈軌跡,約16 token),但自迴歸逐token解碼成最大瓶頸。駕駛領域推理易草稿:序列短、結構模板固定、豐富視覺上下文決定多數內容,token熵遠低於開放語言生成,適合高接受率推測解碼。
- 採用DFlash區塊擴散模型平行草稿整塊候選(非逐token),單次前向捕捉區塊內相關性。
- 推測驗證保證輸出分布與標準自迴歸相同,零品質損失。
DFlash開源於github.com/z-lab/dflash,支持Qwen3.5系列(如Qwen3.5-27B、Qwen3.5-35B-A3B)、Llama-3.1-8B-Instruct等多模型,整合vLLM、SGLang、Transformers、MLX後端,即插即用。例如vLLM啟動:vllm serve Qwen/Qwen3.5-27B --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}',基準測試gsm8k等資料集顯示高效加速。
自適應步進Flow Matching
VLA需橋接語言推理與連續車輛控制,標準flow matching頭用10去噪步驟轉換推理為軌跡路徑點,均勻少步損害品質,因速度場非均勻:剖析顯示U形模式,首尾步驟變化劇烈,中間近恆定。
- 物理解釋:早期步建立粗軌跡結構(車道選擇、轉彎方向),末期步對齊物理可行流形(運動學約束、道路幾何),中間僅微調已定路径,端點攜帶訊號、中間僅慣性。
- 快取中間速度重用而非重算,集中計算於關鍵步驟,縮短動作生成時間維持軌跡品質。
W4A8量化壓縮
量化壓低權重與激活精度換取速度,標準AWQ僅權重4位(W4A16)助解碼記憶體綁定,但忽略預填充計算綁定;VLA提示含數千視覺token,預填充不可忽視。
- ParoQuant W4A8同時擊中兩瓶頸:4位權重減解碼記憶體頻寬,8位激活解鎖INT8矩陣乘加速預填充。
- VLA推理鏈(每步~16 token)累積量化誤差,AWQ殘留權重離群值致軌跡漂移;ParoQuant配對旋轉徹底壓制離群,控制累積誤差。
ParoQuant開源於github.com/z-lab/paroquant,支持NVIDIA GPU(vLLM、Transformers)及Apple Silicon(MLX),提供Qwen3.5-4B-PARO等模型,安裝pip install "paroquant[vllm]",聊天python -m paroquant.cli.chat --model z-lab/Qwen3.5-4B-PARO,arXiv 2511.10645驗證接近FP16精度、近AWQ速度。
系統級工程強化
VLA管線異質(視覺編碼、語言處理、自迴歸解碼、擴散動作生成),演算法優化需配系統工程:
- CUDA Graphs:編譯四階段管線消除CPU調度開銷。
- Kernel Fusion:融合Q/K/V投影單kernel,MLP內閘與上投影合併,max-autotune編譯元素運算與歸約,消弭記憶體往返與啟動間隙。
性能成果與影響
FlashDrive = 串流推理 + DFlash推測推理 + ParoQuant W4A8,端到端延遲159ms(RTX PRO 6000),4.5倍加速零精度損失,各階段冗餘正交,加速疊加。超越駕駛,適用任何延遲受限VLA部署,單GPU sub-200ms推理使具思維鏈VLA即時可行,不犧牲長尾強項。專案網站z-lab.ai/projects/flashdrive/,由Richard91316073及YihaoLiang01主導,貢獻者hongfeizhang0xF、jianchen1799。
DFlash細節擴展
DFlash為輕量區塊擴散模型,專為推測解碼設計,平行高效草稿。支持模型包括:
- Qwen3.6-35B-A3B (Preview):z-lab/Qwen3.6-35B-A3B-DFlash
- Qwen3.5-4B/9B/27B/35B-A3B等
- Qwen3-Coder系列、gpt-oss-20b/120b
- Llama-3.1-8B-Instruct
安裝分後端:Transformers uv pip install -e ".[transformers]",vLLM需nightly build。快速啟動如SGLang伺服器設定--speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash,MLX支援Apple M5 Pro。基準gsm8k、math500、humanEval等自動下載評估,論文arXiv:2602.06036。
ParoQuant細節擴展
ParoQuant為狀態藝術INT4量化,學配對旋轉壓制權重離群,精度追FP16、速度近AWQ。模型涵蓋:
- Qwen3.5-0.8B/2B/4B/9B/27B/35B-A3B-PARO
- Qwen3系列、Llama-2-7B/3-8B/3.1-8B-Instruct-PARO
- Gemma-4-31B-it-PARO
Docker映像ghcr.io/z-lab/paroquant:chat/serve,自量化腳本experiments/optimize/4bit.sh Qwen/Qwen3-8B,ICLR 2026論文。這些開源元件已即時可用,FlashDrive展現演算法-系統共設計如何解鎖VLA實戰潛力。
Reasoning VLAs can think. They just can't think fast. Until now.
— Zhijian Liu (@zhijianliu_) April 19, 2026
Introducing FlashDrive⚡
🚀 716 ms → 159 ms on RTX PRO 6000 (up to 5.7×)
✅ Zero accuracy loss
FlashDrive = streaming inference + DFlash speculative reasoning + ParoQuant W4A8
Real-time reasoning for autonomous… pic.twitter.com/SMHJ04J62G
Code + model checkpoints coming soon.
— Zhijian Liu (@zhijianliu_) April 19, 2026
The ingredients are already open-source:
🔥 DFlash → https://t.co/9CtLKDq1Dg
⚡ ParoQuant → https://t.co/RqmWxliQbY
Great work led by @Richard91316073 and @YihaoLiang01, with @hongfeizhang0xF and @jianchen1799.
— Zhijian Liu (@zhijianliu_) April 19, 2026
