← 返回首頁
BuBBliK
BuBBliK
@k1rallik
2,820🔁 321
𝕏 (Twitter)🔥🔥🔥

讓華爾街崩潰的演算法

Google 僅憑一個演算法,就讓記憶體股崩盤。

TurboQuant 將人工智慧記憶體壓縮 6 倍,速度提升 8 倍——且零準確度損失。而且它是免費的。

AI 無形的記憶體危機

每次你與 AI 聊天時,模型不只會讀取你的最後一則訊息。它會重新讀取整個對話。它處理過的每一個 token。

為了避免從頭開始重新計算所有這些內容,transformer 會將其儲存在 KV cache 中——這是模型的短期工作記憶體。

問題是:這個記憶體會隨著每個 token 線性增長。在 70B 模型上,一個 128K token 的 Prompt 就會佔用大約 40 GB 的 GPU 記憶體——僅僅是為了 cache。這還沒算模型權重載入的記憶體。

在長上下文(long contexts)中,cache 消耗的記憶體比模型本身還要多。

而現代 LLM 是記憶體受限(memory-bound),而非運算受限(compute-bound)。生成一個 token 的運算成本很低——但從記憶體載入資料的成本卻很高。而且是反覆不斷地載入。

這限制了:

  • 一個 GPU 可以服務多少使用者

  • 模型可以處理的 context window 有多長

  • 大規模推論(inference)的成本

業界稱之為記憶體牆(Memory Wall)。而直到本週,沒有人有明確的解決方案。

Google 的答案:壓縮一切,不失任何東西

Google Research 於 3 月 25 日發表了 TurboQuant。它將 KV cache 從每個值 16 位元壓縮到 3 位元。記憶體減少 6 倍。零準確度損失。

兩個階段:

PolarQuant - 旋轉向量,使其分佈變得可預測。讓你可以預先計算量化器一次,無需校準。消除了所有先前方法在壓縮 metadata 上浪費的 1-2 位元額外開銷。

QJL - 將剩餘誤差減少到單一符號位元。消除注意力分數中的偏差。壓縮後的輸出在統計上與全精度相同。

關鍵區別在於:所有先前的方法都壓縮了資料,但增加了額外開銷,以極高的速率抵消了收益。TurboQuant 實現了接近零的額外開銷——接近香農極限(Shannon limit),即壓縮的理論下限。

隨插即用。適用於任何模型。無需重新訓練。無需校準。無微調(fine-tuning)風險。

基準測試實際顯示了什麼

  • 記憶體:至少減少 6 倍。70B 模型 KV cache 從約 80 GB 下降到約 13 GB

  • 速度:在 NVIDIA H100 上,注意力(attention)速度提升高達 8 倍(4 位元 vs 32 位元)

  • 準確度:在「大海撈針」(Needle-in-a-Haystack)測試中獲得滿分——在 100,000 個單字中找到一個句子

  • 成本:雲端推論(cloud inference)支出減少 50% 以上

  • 隨插即用,適用於任何模型——Llama、Mistral、Gemma,任何模型

注意事項:8 倍的速度提升是針對注意力 logits,而非完整的推論。測試僅限於約 8B 以下的模型。70B+ 模型尚未證實。

儘管如此——一個免費、無需訓練的演算法,能將記憶體減少 6 倍,並接近理論壓縮極限。這不是漸進式的改進。這是世代性的突破。

華爾街恐慌了

投資者沒有等待同行評審:

  • SanDisk: -11%

  • Micron: -7%

  • SK hynix: -6.2%

  • Samsung: -4.7%

  • NVIDIA: -4.2%

  • 費城半導體指數: -4.8%

而那斯達克指數卻在上漲。

一篇研究論文。沒有產品。沒有釋出程式碼。只有數學——卻在 48 小時內讓記憶體股蒸發數十億美元。

Citrini Research 的一位分析師說得最好:「這就像是說 Aramco 應該崩盤,因為 Toyota 推出了一款下一代混合動力引擎。」

富國銀行(Wells Fargo)的 Andrew Rocha 指出,壓縮演算法已經存在多年,從未根本性地改變記憶體採購量。但這次市場不關心細微差別——它先賣出,然後再提問。

網路立即明白了

如果你看過 HBO 的《矽谷群瞎傳》(Silicon Valley)——你就會明白這個笑話。虛構的新創公司 Pied Piper 建立了一個改變運算規則的壓縮演算法。

TurboQuant 簡直就是同樣的情節。只不過它是真實的。

迷因(memes)立即傳開。Google Research 在 X 上的貼文在 24 小時內瀏覽量突破 770 萬。

Cloudflare CEO Matthew Prince 稱之為「Google 的 DeepSeek 時刻」。另一個人寫道:「嗯,我們現在都知道誰偷了 Pied Piper 的程式庫了。」另一位使用者計算出魏斯曼分數(Weismann Score)為 5.2——這是一個只有《矽谷群瞎傳》粉絲才能理解的梗。

不過,這個比較並不完美。Pied Piper 旨在改變所有運算。TurboQuant 僅針對推論記憶體——而非訓練。但就網路反應而言,這個比喻很貼切。

社群沒有等待

Google 沒有釋出官方程式碼。只有一篇包含數學和偽程式碼的論文。

在 24 小時內,開發者們從零開始建立了可運作的實作——閱讀公式並撰寫程式碼。一篇研究論文能有如此快的採用速度,幾乎是前所未聞的。

已完成的工作:

  • PyTorch 中的客製化 Triton kernel,在 RTX 4090 上的 Gemma 3 4B 進行測試——在 2 位元壓縮下輸出位元組完全相同

  • 透過 MLX 在 Apple Silicon 上運行的 35B 模型——在每個量化級別的「大海撈針」測試中均為 6/6

  • 三位開發者正在 llama.cpp 中建立 C 和 CUDA 實作——其中一位報告通過了 18/18 項測試

  • 一位使用者使用 GPT-5.4 在 25 分鐘內撰寫了完整的 MLX 實作

一個問題是:一位早期實作人員發現,一個天真的 QJL 實作會產生垃圾輸出。如果沒有適當的偏差校正,量化誤差會累積,模型將變得無法使用。必須嚴格遵循數學原理。

======================================================================
Needle-in-a-haystack (~16384 tokens)
======================================================================
  fp16 baseline              [FOUND]  2.5s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 4-bit           [FOUND]  2.8s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 4-bit FUSED     [FOUND]  3.4s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 2-bit           [FOUND]  2.8s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.
  TurboQuant 2-bit FUSED     [FOUND]  3.0s
    Answer: The secret password for project Orion is 'blue-giraffe-42'.

人們在數小時內重新實作一篇論文——沒有官方程式碼,橫跨 Triton、MLX 和 CUDA——這說明了兩件事:數學原理足夠清晰可重現,而且問題足夠緊急,沒有人願意等待。

真正重要的不是壓縮。而是極限

對 TurboQuant 最清醒的看法之一是:它之所以重要,並不是因為它節省了更多記憶體,而是因為它揭示了極限所在。

以下是目前的壓縮歷程:

  • 無壓縮:1 倍(基準線)

  • 基本量化:2-3 倍

  • 異常值感知方法:3-4 倍

  • TurboQuant 在實際系統中:4-4.5 倍

TurboQuant 的錯誤率已經接近香農極限(Shannon limit)——由資訊理論定義的絕對理論下限。幾乎沒有剩餘的壓縮空間了。

這篇論文本身透過數學下限證明了這一點。任何量化演算法,無論多麼巧妙,都無法超越這個極限。TurboQuant 已經非常接近了。

這意味著:人工智慧效率的下一個重大突破不會來自壓縮。它將需要一條根本不同的道路——新的架構、新的注意力機制,或者徹底重新思考模型如何儲存上下文。

劇情反轉:所需記憶體越少 = 售出記憶體越多

這就是傑文斯悖論(Jevons Paradox)。當一種資源變得更便宜時,人們不會減少使用,反而會使用更多。

記憶體節省 6 倍?公司將運行複雜度高 6 倍的模型。開啟以前成本過高的使用案例——即時影片、百萬 token 文件、24/7 運行的多模態 Agent。

一個服務一個會話的 GPU 現在將服務六個。但需求不會停留在六個。它將增長到六十個。

KB 證券分析師直接指出:像 TurboQuant 這樣的技術降低了採用門檻,並大幅擴大了總需求。記憶體製造商最終成為 AI 擴張的最大受益者——而不是受害者。

DeepSeek 也發生了同樣的事情。每個人都說更便宜的訓練會扼殺 GPU 需求。相反,它加速了需求。更多人負擔得起訓練模型,所以更多人這樣做了。

總而言之:記憶體需求很可能會增長,而不是縮減。

你的硬體剛剛免費升級了

沒有新晶片。沒有新裝置。只是一個軟體演算法——突然間,你現有的硬體就能做上週還無法做到的事情。

  • Mac Mini:100,000 token 的對話,無品質損失。這是在一台 600 美元的機器上實現的完整書本長度上下文

  • 智慧型手機:32,000+ token 的 context window——純粹透過軟體實現,無需更換硬體

  • RTX 4090:需要多 GPU 設定的模型現在可以安裝在一張卡上

  • 企業:減少長上下文任務所需的 GPU 數量,潛在可將雲端支出削減 50% 以上

本地 AI 和雲端訂閱之間的差距顯著縮小。在家中運行嚴肅的模型不再是一種妥協——它正在成為一個真正的選擇。

總結

一篇研究論文。沒有程式碼。沒有產品發布。

48 小時後:

  • 記憶體股蒸發數十億美元

  • 僅憑數學原理建立的三個獨立實作

  • 整個產業重新計算需求預測

TurboQuant 不會扼殺記憶體市場。它重新劃定了軟體可以解決什麼,以及什麼仍然需要硬體之間的界線。

而真正重要的故事是什麼?我們剛剛達到了壓縮的極限。接下來的任何突破——都不會是壓縮。


資訊來源:Google Research Blog、原始 ICLR 2026 論文、TechCrunch、VentureBeat、Tom's Hardware、The Next Web、Investing.com、The Korea Herald、CNBC、llama.cpp GitHub 討論、turboquant.net、dejan.ai、Sketchplanations。