# 策展 · X (Twitter) 🔥

> 作者：Google Research (@GoogleResearch) · 平台：X (Twitter) · 日期：2026-03-25

> 原始來源：https://x.com/googleresearch/status/2036533564158910740

## 中文摘要

Google Research 推出 TurboQuant，一種新型向量量化壓縮演算法，可將大型語言模型的 Key-Value cache 記憶縮減至少 6 倍，同時實現高達 8 倍的速度提升，且不損失任何精度。這項技術將於 ICLR 2026 發表，配合另兩項相關演算法 QJL（Quantized Johnson-Lindenstrauss）和 PolarQuant（將於 AISTATS 2026 發表），共同定義了人工智慧效率的新標準。

**問題背景：向量與快取瓶頸**

高維向量是現代人工智慧模型的基礎，能夠捕捉影像特徵、詞彙含義和資料集特性等複雜資訊。然而，這些向量消耗大量記憶，造成 key-value cache（高速「數位速查表」）的嚴重瓶頸。傳統向量量化雖能壓縮資料，卻引入「記憶開銷」——大多數方法需要以完整精度計算並儲存每個資料塊的量化常數，額外增加 1 至 2 位元，削弱了量化的效果。TurboQuant 正是為解決這一核心問題而設計。

**TurboQuant 的兩階段運作機制**

- **高品質壓縮（PolarQuant 方法）**：演算法先隨機旋轉資料向量，簡化資料幾何特性，使標準量化工具能逐部分套用。此階段使用大部分壓縮能力（絕大多數位元）擷取原始向量的主要概念與強度。

- **消除殘餘誤差（QJL 演算法）**：使用僅 1 位元的殘餘壓縮能力套用 QJL 演算法，消除第一階段遺留的微小誤差。QJL 充當數學誤差檢查器，消除偏差，提升注意力分數精度。

**QJL：零開銷的 1 位元策略**

QJL 採用 Johnson-Lindenstrauss 轉換技術，將複雜高維資料縮小，同時保留資料點間的距離與關係。它將每個向量數字縮減為單一符號位元（+1 或 -1），實現零記憶開銷。為維持精度，QJL 使用特殊估計器，策略性地平衡高精度查詢與低精度簡化資料，讓模型能準確計算注意力分數（決定輸入哪些部分重要、哪些可忽略的過程）。

**PolarQuant：壓縮的全新角度**

PolarQuant 採用截然不同的方式解決記憶開銷問題。它不使用標準坐標系（X、Y、Z），而是將向量轉換為極坐標——類似將「向東 3 街區、向北 4 街區」改為「以 37 度角總共向前 5 街區」。此方法產生兩項資訊：半徑（代表核心資料強度）和角度（代表資料方向或含義）。由於角度模式已知且高度集中，模型無需執行昂貴的資料正規化步驟，而是映射到固定、可預測的「圓形」網格（邊界已知），取代邊界不斷變化的「方形」網格。PolarQuant 將向量對分組映射至極坐標系統，遞迴收集半徑進行極坐標轉換，反覆進行直至資料濃縮為單一最終半徑和一組描述性角度。

**實驗驗證與性能指標**

研究團隊在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval 等標準長文本基準上，使用 Gemma 和 Mistral 開源大型語言模型進行嚴格評估。實驗數據顯示 TurboQuant 在點積失真和檢索率方面實現最優性能，同時最小化 key-value 記憶足跡。TurboQuant 在「大海撈針」任務（測試模型在海量文本中尋找單一微小資訊的能力）上達成完美下游結果，記憶縮減至少 6 倍。於 H100 GPU 加速器上，4 位元 TurboQuant 在計算注意力 logits 時相比 32 位元未量化金鑰實現高達 8 倍的性能提升，且無需訓練或微調。向量搜尋評估中，TurboQuant 在 1@k 檢索率上超越 PQ 和 RabbiQ 等最先進方法，儘管後者使用低效的大型 codebook 和資料集特定調優。

**理論基礎與未來展望**

TurboQuant、QJL 和 PolarQuant 不僅是實踐工程解決方案，更是擁有強大理論證明的基礎演算法貢獻，可證明其效率並接近理論下界。除解決 Gemini 等模型的 key-value cache 瓶頸外，高效在線向量量化的影響更為深遠。隨著現代搜尋從關鍵字演進至理解意圖與語義，向量搜尋能力變得至關重要。TurboQuant 這類技術使得在 Google 規模上建立和查詢數十億向量索引成為可能，實現最小記憶、近零預處理時間與業界最佳精度的結合。

## 標籤

研究論文, LLM, 產業趨勢, Google