核心創新:TurboQuant 壓縮演算法
Google Research 推出 TurboQuant,一種新型向量量化壓縮演算法,可將大型語言模型的 Key-Value cache 記憶體縮減至少 6 倍,同時實現高達 8 倍的速度提升,且不損失任何精度。這項技術將於 ICLR 2026 發表,配合另兩項相關演算法 QJL(Quantized Johnson-Lindenstrauss)和 PolarQuant(將於 AISTATS 2026 發表),共同定義了人工智慧效率的新標準。
問題背景:向量與快取瓶頸
高維向量是現代人工智慧模型的基礎,能夠捕捉影像特徵、詞彙含義和資料集特性等複雜資訊。然而,這些向量消耗大量記憶體,造成 key-value cache(高速「數位速查表」)的嚴重瓶頸。傳統向量量化雖能壓縮資料,卻引入「記憶體開銷」——大多數方法需要以完整精度計算並儲存每個資料塊的量化常數,額外增加 1 至 2 位元,削弱了量化的效果。TurboQuant 正是為解決這一核心問題而設計。
TurboQuant 的兩階段運作機制
高品質壓縮(PolarQuant 方法):演算法先隨機旋轉資料向量,簡化資料幾何特性,使標準量化工具能逐部分套用。此階段使用大部分壓縮能力(絕大多數位元)擷取原始向量的主要概念與強度。
消除殘餘誤差(QJL 演算法):使用僅 1 位元的殘餘壓縮能力套用 QJL 演算法,消除第一階段遺留的微小誤差。QJL 充當數學誤差檢查器,消除偏差,提升注意力分數精度。
QJL:零開銷的 1 位元策略
QJL 採用 Johnson-Lindenstrauss 轉換技術,將複雜高維資料縮小,同時保留資料點間的距離與關係。它將每個向量數字縮減為單一符號位元(+1 或 -1),實現零記憶體開銷。為維持精度,QJL 使用特殊估計器,策略性地平衡高精度查詢與低精度簡化資料,讓模型能準確計算注意力分數(決定輸入哪些部分重要、哪些可忽略的過程)。
PolarQuant:壓縮的全新角度
PolarQuant 採用截然不同的方式解決記憶體開銷問題。它不使用標準坐標系(X、Y、Z),而是將向量轉換為極坐標——類似將「向東 3 街區、向北 4 街區」改為「以 37 度角總共向前 5 街區」。此方法產生兩項資訊:半徑(代表核心資料強度)和角度(代表資料方向或含義)。由於角度模式已知且高度集中,模型無需執行昂貴的資料正規化步驟,而是映射到固定、可預測的「圓形」網格(邊界已知),取代邊界不斷變化的「方形」網格。PolarQuant 將向量對分組映射至極坐標系統,遞迴收集半徑進行極坐標轉換,反覆進行直至資料濃縮為單一最終半徑和一組描述性角度。
實驗驗證與性能指標
研究團隊在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval 等標準長文本基準上,使用 Gemma 和 Mistral 開源大型語言模型進行嚴格評估。實驗數據顯示 TurboQuant 在點積失真和檢索率方面實現最優性能,同時最小化 key-value 記憶體足跡。TurboQuant 在「大海撈針」任務(測試模型在海量文本中尋找單一微小資訊的能力)上達成完美下游結果,記憶體縮減至少 6 倍。於 H100 GPU 加速器上,4 位元 TurboQuant 在計算注意力 logits 時相比 32 位元未量化金鑰實現高達 8 倍的性能提升,且無需訓練或微調。向量搜尋評估中,TurboQuant 在 1@k 檢索率上超越 PQ 和 RabbiQ 等最先進方法,儘管後者使用低效的大型 codebook 和資料集特定調優。
理論基礎與未來展望
TurboQuant、QJL 和 PolarQuant 不僅是實踐工程解決方案,更是擁有強大理論證明的基礎演算法貢獻,可證明其效率並接近理論下界。除解決 Gemini 等模型的 key-value cache 瓶頸外,高效在線向量量化的影響更為深遠。隨著現代搜尋從關鍵字演進至理解意圖與語義,向量搜尋能力變得至關重要。TurboQuant 這類技術使得在 Google 規模上建立和查詢數十億向量索引成為可能,實現最小記憶體、近零預處理時間與業界最佳精度的結合。
Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) March 24, 2026
