# 策展 · X (Twitter) 🔥

> 作者：BuBBliK (@k1rallik) · 平台：X (Twitter) · 日期：2026-03-30

> 原始來源：https://x.com/k1rallik/status/2037868113480319321

## 中文摘要

# 讓華爾街崩潰的演算法

Google 僅憑一個演算法，就讓記憶股崩盤。

TurboQuant 將人工智慧記憶壓縮 6 倍，速度提升 8 倍——且零準確度損失。而且它是免費的。

## AI 無形的記憶危機

每次你與 AI 聊天時，模型不只會讀取你的最後一則訊息。它會重新讀取整個對話。它處理過的每一個 token。

為了避免從頭開始重新計算所有這些內容，transformer 會將其儲存在 KV cache 中——這是模型的短期工作記憶。

問題是：這個記憶會隨著每個 token 線性增長。在 70B 模型上，一個 128K token 的 Prompt 就會佔用大約 40 GB 的 GPU 記憶——僅僅是為了 cache。這還沒算模型權重載入的記憶。

在長上下文（long contexts）中，cache 消耗的記憶比模型本身還要多。

而現代 LLM 是記憶受限（memory-bound），而非運算受限（compute-bound）。生成一個 token 的運算成本很低——但從記憶載入資料的成本卻很高。而且是反覆不斷地載入。

這限制了：

- 一個 GPU 可以服務多少使用者

- 模型可以處理的 context window 有多長

- 大規模推論（inference）的成本

業界稱之為記憶牆（Memory Wall）。而直到本週，沒有人有明確的解決方案。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662775-iaHEe5t96b0AAbEF9jpg.jpg)

## Google 的答案：壓縮一切，不失任何東西

Google Research 於 3 月 25 日發表了 TurboQuant。它將 KV cache 從每個值 16 位元壓縮到 3 位元。記憶減少 6 倍。零準確度損失。

兩個階段：

PolarQuant - 旋轉向量，使其分佈變得可預測。讓你可以預先計算量化器一次，無需校準。消除了所有先前方法在壓縮 metadata 上浪費的 1-2 位元額外開銷。

QJL - 將剩餘誤差減少到單一符號位元。消除注意力分數中的偏差。壓縮後的輸出在統計上與全精度相同。

關鍵區別在於：所有先前的方法都壓縮了資料，但增加了額外開銷，以極高的速率抵消了收益。TurboQuant 實現了接近零的額外開銷——接近香農極限（Shannon limit），即壓縮的理論下限。

隨插即用。適用於任何模型。無需重新訓練。無需校準。無微調（fine-tuning）風險。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662782-iaHEe7XxSbQAAHvbYjpg.jpg)

## 基準測試實際顯示了什麼

- 記憶：至少減少 6 倍。70B 模型 KV cache 從約 80 GB 下降到約 13 GB

- 速度：在 NVIDIA H100 上，注意力（attention）速度提升高達 8 倍（4 位元 vs 32 位元）

- 準確度：在「大海撈針」（Needle-in-a-Haystack）測試中獲得滿分——在 100,000 個單字中找到一個句子

- 成本：雲端推論（cloud inference）支出減少 50% 以上

- 隨插即用，適用於任何模型——Llama、Mistral、Gemma，任何模型

注意事項：8 倍的速度提升是針對注意力 logits，而非完整的推論。測試僅限於約 8B 以下的模型。70B+ 模型尚未證實。

儘管如此——一個免費、無需訓練的演算法，能將記憶減少 6 倍，並接近理論壓縮極限。這不是漸進式的改進。這是世代性的突破。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662784-diaHEe6h9awAANDsRjpg.jpg)

## 華爾街恐慌了

投資者沒有等待同行評審：

- SanDisk: -11%

- Micron: -7%

- SK hynix: -6.2%

- Samsung: -4.7%

- NVIDIA: -4.2%

- 費城半導體指數: -4.8%

而那斯達克指數卻在上漲。

一篇研究論文。沒有產品。沒有釋出程式碼。只有數學——卻在 48 小時內讓記憶股蒸發數十億美元。

Citrini Research 的一位分析師說得最好：「這就像是說 Aramco 應該崩盤，因為 Toyota 推出了一款下一代混合動力引擎。」

富國銀行（Wells Fargo）的 Andrew Rocha 指出，壓縮演算法已經存在多年，從未根本性地改變記憶採購量。但這次市場不關心細微差別——它先賣出，然後再提問。

## 網路立即明白了

如果你看過 HBO 的《矽谷群瞎傳》（Silicon Valley）——你就會明白這個笑話。虛構的新創公司 Pied Piper 建立了一個改變運算規則的壓縮演算法。

TurboQuant 簡直就是同樣的情節。只不過它是真實的。

迷因（memes）立即傳開。Google Research 在 X 上的貼文在 24 小時內瀏覽量突破 770 萬。

Cloudflare CEO Matthew Prince 稱之為「Google 的 DeepSeek 時刻」。另一個人寫道：「嗯，我們現在都知道誰偷了 Pied Piper 的程式庫了。」另一位使用者計算出魏斯曼分數（Weismann Score）為 5.2——這是一個只有《矽谷群瞎傳》粉絲才能理解的梗。

不過，這個比較並不完美。Pied Piper 旨在改變所有運算。TurboQuant 僅針對推論記憶——而非訓練。但就網路反應而言，這個比喻很貼切。

## 社群沒有等待

Google 沒有釋出官方程式碼。只有一篇包含數學和偽程式碼的論文。

在 24 小時內，開發者們從零開始建立了可運作的實作——閱讀公式並撰寫程式碼。一篇研究論文能有如此快的採用速度，幾乎是前所未聞的。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662787-iaHEfLjX7WEAAcKfgpng.png)

已完成的工作：

- PyTorch 中的客製化 Triton kernel，在 RTX 4090 上的 Gemma 3 4B 進行測試——在 2 位元壓縮下輸出位元組完全相同

- 透過 MLX 在 Apple Silicon 上運行的 35B 模型——在每個量化級別的「大海撈針」測試中均為 6/6

- 三位開發者正在 llama.cpp 中建立 C 和 CUDA 實作——其中一位報告通過了 18/18 項測試

- 一位使用者使用 GPT-5.4 在 25 分鐘內撰寫了完整的 MLX 實作

一個問題是：一位早期實作人員發現，一個天真的 QJL 實作會產生垃圾輸出。如果沒有適當的偏差校正，量化誤差會累積，模型將變得無法使用。必須嚴格遵循數學原理。

```python
======================================================================
Needle-in-a-haystack (~16384 tokens)
======================================================================
  fp16 baseline              [FOUND]  2.5s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 4-bit           [FOUND]  2.8s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 4-bit FUSED     [FOUND]  3.4s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 2-bit           [FOUND]  2.8s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 2-bit FUSED     [FOUND]  3.0s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
```

人們在數小時內重新實作一篇論文——沒有官方程式碼，橫跨 Triton、MLX 和 CUDA——這說明了兩件事：數學原理足夠清晰可重現，而且問題足夠緊急，沒有人願意等待。

## 真正重要的不是壓縮。而是極限

對 TurboQuant 最清醒的看法之一是：它之所以重要，並不是因為它節省了更多記憶，而是因為它揭示了極限所在。

以下是目前的壓縮歷程：

- 無壓縮：1 倍（基準線）

- 基本量化：2-3 倍

- 異常值感知方法：3-4 倍

- TurboQuant 在實際系統中：4-4.5 倍

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662795-iaHEfOXUZaIAAVeicpng.png)

TurboQuant 的錯誤率已經接近香農極限（Shannon limit）——由資訊理論定義的絕對理論下限。幾乎沒有剩餘的壓縮空間了。

這篇論文本身透過數學下限證明了這一點。任何量化演算法，無論多麼巧妙，都無法超越這個極限。TurboQuant 已經非常接近了。

這意味著：人工智慧效率的下一個重大突破不會來自壓縮。它將需要一條根本不同的道路——新的架構、新的注意力機制，或者徹底重新思考模型如何儲存上下文。

## 劇情反轉：所需記憶越少 = 售出記憶越多

這就是傑文斯悖論（Jevons Paradox）。當一種資源變得更便宜時，人們不會減少使用，反而會使用更多。

記憶節省 6 倍？公司將運行複雜度高 6 倍的模型。開啟以前成本過高的使用案例——即時影片、百萬 token 文件、24/7 運行的多模態 Agent。

一個服務一個會話的 GPU 現在將服務六個。但需求不會停留在六個。它將增長到六十個。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662793-iaHEfPSrTWwAAd9kjpng.png)

KB 證券分析師直接指出：像 TurboQuant 這樣的技術降低了採用門檻，並大幅擴大了總需求。記憶製造商最終成為 AI 擴張的最大受益者——而不是受害者。

DeepSeek 也發生了同樣的事情。每個人都說更便宜的訓練會扼殺 GPU 需求。相反，它加速了需求。更多人負擔得起訓練模型，所以更多人這樣做了。

總而言之：記憶需求很可能會增長，而不是縮減。

## 你的硬體剛剛免費升級了

沒有新晶片。沒有新裝置。只是一個軟體演算法——突然間，你現有的硬體就能做上週還無法做到的事情。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662770-diaHEfQctoa8AAwVDjpg.jpg)

- Mac Mini：100,000 token 的對話，無品質損失。這是在一台 600 美元的機器上實現的完整書本長度上下文

- 智慧型手機：32,000+ token 的 context window——純粹透過軟體實現，無需更換硬體

- RTX 4090：需要多 GPU 設定的模型現在可以安裝在一張卡上

- 企業：減少長上下文任務所需的 GPU 數量，潛在可將雲端支出削減 50% 以上

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1774887662797-iaHEfQfSpaIAASq2djpg.jpg)

本地 AI 和雲端訂閱之間的差距顯著縮小。在家中運行嚴肅的模型不再是一種妥協——它正在成為一個真正的選擇。

## 總結

一篇研究論文。沒有程式碼。沒有產品發布。

48 小時後：

- 記憶股蒸發數十億美元

- 僅憑數學原理建立的三個獨立實作

- 整個產業重新計算需求預測

TurboQuant 不會扼殺記憶市場。它重新劃定了軟體可以解決什麼，以及什麼仍然需要硬體之間的界線。

而真正重要的故事是什麼？我們剛剛達到了壓縮的極限。接下來的任何突破——都不會是壓縮。

---

資訊來源：Google Research Blog、原始 ICLR 2026 論文、TechCrunch、VentureBeat、Tom's Hardware、The Next Web、Investing.com、The Korea Herald、CNBC、llama.cpp GitHub 討論、turboquant.net、dejan.ai、Sketchplanations。

## 標籤

LLM, 產業趨勢, Google, TurboQuant