← 返回首頁
Google Research
Google Research
@GoogleResearch
19,107🔁 2,886
𝕏 (Twitter)🔥🔥🔥🔥🔥
AI 中文摘要Claude 生成

核心創新:TurboQuant 壓縮演算法

Google Research 推出 TurboQuant,一種新型向量量化壓縮演算法,可將大型語言模型的 Key-Value cache 記憶體縮減至少 6 倍,同時實現高達 8 倍的速度提升,且不損失任何精度。這項技術將於 ICLR 2026 發表,配合另兩項相關演算法 QJL(Quantized Johnson-Lindenstrauss)和 PolarQuant(將於 AISTATS 2026 發表),共同定義了人工智慧效率的新標準。

問題背景:向量與快取瓶頸

高維向量是現代人工智慧模型的基礎,能夠捕捉影像特徵、詞彙含義和資料集特性等複雜資訊。然而,這些向量消耗大量記憶體,造成 key-value cache(高速「數位速查表」)的嚴重瓶頸。傳統向量量化雖能壓縮資料,卻引入「記憶體開銷」——大多數方法需要以完整精度計算並儲存每個資料塊的量化常數,額外增加 1 至 2 位元,削弱了量化的效果。TurboQuant 正是為解決這一核心問題而設計。

TurboQuant 的兩階段運作機制

  • 高品質壓縮(PolarQuant 方法):演算法先隨機旋轉資料向量,簡化資料幾何特性,使標準量化工具能逐部分套用。此階段使用大部分壓縮能力(絕大多數位元)擷取原始向量的主要概念與強度。

  • 消除殘餘誤差(QJL 演算法):使用僅 1 位元的殘餘壓縮能力套用 QJL 演算法,消除第一階段遺留的微小誤差。QJL 充當數學誤差檢查器,消除偏差,提升注意力分數精度。

QJL:零開銷的 1 位元策略

QJL 採用 Johnson-Lindenstrauss 轉換技術,將複雜高維資料縮小,同時保留資料點間的距離與關係。它將每個向量數字縮減為單一符號位元(+1 或 -1),實現零記憶體開銷。為維持精度,QJL 使用特殊估計器,策略性地平衡高精度查詢與低精度簡化資料,讓模型能準確計算注意力分數(決定輸入哪些部分重要、哪些可忽略的過程)。

PolarQuant:壓縮的全新角度

PolarQuant 採用截然不同的方式解決記憶體開銷問題。它不使用標準坐標系(X、Y、Z),而是將向量轉換為極坐標——類似將「向東 3 街區、向北 4 街區」改為「以 37 度角總共向前 5 街區」。此方法產生兩項資訊:半徑(代表核心資料強度)和角度(代表資料方向或含義)。由於角度模式已知且高度集中,模型無需執行昂貴的資料正規化步驟,而是映射到固定、可預測的「圓形」網格(邊界已知),取代邊界不斷變化的「方形」網格。PolarQuant 將向量對分組映射至極坐標系統,遞迴收集半徑進行極坐標轉換,反覆進行直至資料濃縮為單一最終半徑和一組描述性角度。

實驗驗證與性能指標

研究團隊在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval 等標準長文本基準上,使用 Gemma 和 Mistral 開源大型語言模型進行嚴格評估。實驗數據顯示 TurboQuant 在點積失真和檢索率方面實現最優性能,同時最小化 key-value 記憶體足跡。TurboQuant 在「大海撈針」任務(測試模型在海量文本中尋找單一微小資訊的能力)上達成完美下游結果,記憶體縮減至少 6 倍。於 H100 GPU 加速器上,4 位元 TurboQuant 在計算注意力 logits 時相比 32 位元未量化金鑰實現高達 8 倍的性能提升,且無需訓練或微調。向量搜尋評估中,TurboQuant 在 1@k 檢索率上超越 PQ 和 RabbiQ 等最先進方法,儘管後者使用低效的大型 codebook 和資料集特定調優。

理論基礎與未來展望

TurboQuant、QJL 和 PolarQuant 不僅是實踐工程解決方案,更是擁有強大理論證明的基礎演算法貢獻,可證明其效率並接近理論下界。除解決 Gemini 等模型的 key-value cache 瓶頸外,高效在線向量量化的影響更為深遠。隨著現代搜尋從關鍵字演進至理解意圖與語義,向量搜尋能力變得至關重要。TurboQuant 這類技術使得在 Google 規模上建立和查詢數十億向量索引成為可能,實現最小記憶體、近零預處理時間與業界最佳精度的結合。