# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Zhijian Liu (@zhijianliu_) · 平台：X (Twitter) · 日期：2026-04-20

> 原始來源：https://x.com/zhijianliu_/status/2045953307148173687

## 中文摘要

FlashDrive實現視覺語言動作模型即時推理，端到端延遲從716ms降至159ms，加速4.5倍無精度損失。

FlashDrive是針對自動駕駛的視覺語言動作（VLA）模型推理優化框架，由Zekai Li、Yihao Liang、Hongfei Zhang、Jian Chen及Zhijian Liu領導開發，將Alpamayo 1.5（10B參數，基於Qwen3-VL）在NVIDIA RTX PRO 6000上的每步延遲從716ms（約1.4Hz）壓縮至159ms（最高5.7倍加速），滿足即時駕駛需求，程式碼與模型檢查點即將開源。

**傳統系統局限**

傳統自動駕駛系統將感知與規劃分離，在真實世界罕見複雜「長尾」情境中極易崩潰。VLA模型則整合End to End (端到端)思維鏈推理，能逐步思考新穎情況，產生明確推理軌跡與軌跡預測，今年NVIDIA發布產業首個開源推理VLA模型「Alpamayo 1」及「Alpamayo 1.5」，但推理耗時嚴重阻礙即時應用。

**瓶頸全面剖析**

VLA推理分四階段：視覺編碼、提示預填充、推理token解碼、flow matching動作生成，剖析Alpamayo 1.5顯示延遲均勻分布無單一主導瓶頸，需全棧優化才能接近即時。

**串流推理優化**

駕駛VLA需連續處理多相機影片流，每步滑動視窗涵蓋4幀×4視角，相鄰步驟重疊75%（前三幀相同），傳統每步全重新編碼浪費大量計算。

- 僅處理新幀，KV快取重用前三幀消除75%視覺計算。
- Pre-RoPE鍵快取與即時旋轉嵌入處理動態位置偏移（舊幀淘汰、新幀進入）。
- 自訂串流注意力遮罩適應視角優先token排序，新幀僅關注當前及先前視角，維持因果性。

此舉有效序列長減75%，加速編碼與預填充階段。但串流KV快取為近似值（舊鍵值基於不同注意力上下文），損害精度，全VLM微調反而惡化，因推理token自迴歸生成主要關注近期token，對陳舊快取穩健；動作專家則跨注意力整合全KV快取產生連續軌跡，放大分布偏差。解決之道：凍結VLM僅微調動作專家，透過多步串流填充KV快取（無梯度），最終步啟用梯度，精準恢復基線精度。

**推測推理加速**

VLA長尾強項來自生成顯式推理token（如因果鏈軌跡，約16 token），但自迴歸逐token解碼成最大瓶頸。駕駛領域推理易草稿：序列短、結構模板固定、豐富視覺上下文決定多數內容，token熵遠低於開放語言生成，適合高接受率推測解碼。

- 採用DFlash區塊擴散模型平行草稿整塊候選（非逐token），單次前向捕捉區塊內相關性。
- 推測驗證保證輸出分布與標準自迴歸相同，零品質損失。

DFlash開源於github.com/z-lab/dflash，支持Qwen3.5系列（如Qwen3.5-27B、Qwen3.5-35B-A3B）、Llama-3.1-8B-Instruct等多模型，整合vLLM、SGLang、Transformers、MLX後端，即插即用。例如vLLM啟動：`vllm serve Qwen/Qwen3.5-27B --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'`，基準測試gsm8k等資料集顯示高效加速。

**自適應步進Flow Matching**

VLA需橋接語言推理與連續車輛控制，標準flow matching頭用10去噪步驟轉換推理為軌跡路徑點，均勻少步損害品質，因速度場非均勻：剖析顯示U形模式，首尾步驟變化劇烈，中間近恆定。

- 物理解釋：早期步建立粗軌跡結構（車道選擇、轉彎方向），末期步對齊物理可行流形（運動學約束、道路幾何），中間僅微調已定路径，端點攜帶訊號、中間僅慣性。
- 快取中間速度重用而非重算，集中計算於關鍵步驟，縮短動作生成時間維持軌跡品質。

**W4A8量化壓縮**

量化壓低權重與激活精度換取速度，標準AWQ僅權重4位（W4A16）助解碼記憶體綁定，但忽略預填充計算綁定；VLA提示含數千視覺token，預填充不可忽視。

- ParoQuant W4A8同時擊中兩瓶頸：4位權重減解碼記憶體頻寬，8位激活解鎖INT8矩陣乘加速預填充。
- VLA推理鏈（每步~16 token）累積量化誤差，AWQ殘留權重離群值致軌跡漂移；ParoQuant配對旋轉徹底壓制離群，控制累積誤差。

ParoQuant開源於github.com/z-lab/paroquant，支持NVIDIA GPU（vLLM、Transformers）及Apple Silicon（MLX），提供Qwen3.5-4B-PARO等模型，安裝`pip install "paroquant[vllm]"`，聊天`python -m paroquant.cli.chat --model z-lab/Qwen3.5-4B-PARO`，arXiv 2511.10645驗證接近FP16精度、近AWQ速度。

**系統級工程強化**

VLA管線異質（視覺編碼、語言處理、自迴歸解碼、擴散動作生成），演算法優化需配系統工程：

- CUDA Graphs：編譯四階段管線消除CPU調度開銷。
- Kernel Fusion：融合Q/K/V投影單kernel，MLP內閘與上投影合併，max-autotune編譯元素運算與歸約，消弭記憶體往返與啟動間隙。

**性能成果與影響**

FlashDrive = 串流推理 + DFlash推測推理 + ParoQuant W4A8，端到端延遲159ms（RTX PRO 6000），4.5倍加速零精度損失，各階段冗餘正交，加速疊加。超越駕駛，適用任何延遲受限VLA部署，單GPU sub-200ms推理使具思維鏈VLA即時可行，不犧牲長尾強項。專案網站z-lab.ai/projects/flashdrive/，由Richard91316073及YihaoLiang01主導，貢獻者hongfeizhang0xF、jianchen1799。

**DFlash細節擴展**

DFlash為輕量區塊擴散模型，專為推測解碼設計，平行高效草稿。支持模型包括：

- Qwen3.6-35B-A3B (Preview)：z-lab/Qwen3.6-35B-A3B-DFlash
- Qwen3.5-4B/9B/27B/35B-A3B等
- Qwen3-Coder系列、gpt-oss-20b/120b
- Llama-3.1-8B-Instruct

安裝分後端：Transformers `uv pip install -e ".[transformers]"`，vLLM需nightly build。快速啟動如SGLang伺服器設定`--speculative-algorithm DFLASH --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash`，MLX支援Apple M5 Pro。基準gsm8k、math500、humanEval等自動下載評估，論文arXiv:2602.06036。

**ParoQuant細節擴展**

ParoQuant為狀態藝術INT4量化，學配對旋轉壓制權重離群，精度追FP16、速度近AWQ。模型涵蓋：

- Qwen3.5-0.8B/2B/4B/9B/27B/35B-A3B-PARO
- Qwen3系列、Llama-2-7B/3-8B/3.1-8B-Instruct-PARO
- Gemma-4-31B-it-PARO

Docker映像ghcr.io/z-lab/paroquant:chat/serve，自量化腳本`experiments/optimize/4bit.sh Qwen/Qwen3-8B`，ICLR 2026論文。這些開源元件已即時可用，FlashDrive展現演算法-系統共設計如何解鎖VLA實戰潛力。

## 標籤

VLM, 開源專案, 研究論文, FlashDrive, Qwen