遺忘的幾何學:為什麼大腦與 LLM 會以「完全相同」的方式失效
遺忘的幾何學:為什麼大腦與 LLM 會以「完全相同」的方式失效
TL;DR (總結)
- LLM 的記憶系統遺忘的方式與人類「完全相同」,重現了臨床心理學中一些最常被複製的實驗數據。
- 在過去幾個月裡,我們一直在探索一個單一觀察結果:學習到的表徵(learned representations)會將其變異數(variance)集中在標稱維度(nominal dimensions)約 3% 到 10% 的範圍內。這種集中現象主導了壓縮、注意力機制,事實證明,也主導了記憶本身。
- 聲稱具有 384 到 1,024 維的 Embedding 模型,實際上將其變異數集中在約 16 個有效維度(effective dimensions)中。這使它們容易受到導致人類遺忘的相同干擾影響。
- 人類觀察到的冪律遺忘(Ebbinghaus 遺忘曲線)源於記憶之間的競爭,而非隨時間的衰減。移除競爭者後,遺忘指數(forgetting exponent)會下降五十倍。
- 虛假記憶(False memories)不需要任何工程設計。在未經修改的預訓練 Embedding 上進行原始的餘弦相似度(cosine similarity)計算,即可重現經典的虛假記憶率(0.583 vs 人類約 0.55),且無需進行任何參數調整。
- 結論:遺忘和虛假記憶並非生物硬體的錯誤(bugs),而是任何透過意義組織資訊並透過鄰近性(proximity)檢索資訊的系統所具備的特性。
在過去幾個月裡,我們一直在研究一個單一現象:學習表徵的頻譜集中度(spectral concentration)。在我們檢查的每一個系統中,從 Transformer 的注意力頭(attention heads)到生產環境的 Embedding 模型,再到(根據已發表的神經記錄)生物皮層,模式都是一樣的。標稱維度很高:128、384、768、1,024。但有效維度很低:標稱空間中只有約 3% 到 4% 承載了有意義的變異數。其餘的都是雜訊,或者接近雜訊。
我們首先探討這種集中現象對壓縮意味著什麼,答案是 SpectralQuant,它利用了 KV 快取鍵向量(KV cache key vectors)中的頻譜間隙(d_eff ≈ 4/128),在提升重建品質的同時,比 Google 可證明近乎最佳的 TurboQuant 效能提升了 18.6%。那項工作向我們展示了頻譜集中度的機會面:它告訴你應該把位元(bits)放在哪裡。
但我們持續追問:這種幾何結構還控制了什麼?結果發現,是記憶本身。不是 GPU 記憶體,而是人類記憶。那種你用來記住母親電話號碼的記憶,那種當你走進一個房間卻忘記為什麼要進去的記憶,那種有時會讓你確信某事發生過但實際上並沒有發生的記憶。
我們發現,受到雜訊、干擾和時間退化影響的 Embedding 空間,在沒有針對特定現象進行工程設計的情況下,重現了人類記憶的量化特徵。冪律遺忘、虛假記憶、舌尖現象(tip-of-tongue states)、間隔效應(spacing effects)。所有這些都源於高維度基於相似性的檢索幾何結構。這正是我們在 Transformer 中研究的同一種幾何結構。
生物記憶與人工記憶之間的界線,比任何人想像的都要薄。
連接一切的線索
這就是讓這一切不僅僅是巧合的連結點。
SpectralQuant 測量了 Transformer 注意力頭中 KV 快取鍵向量的參與比(participation ratio):d_eff ≈ 4/128 維,約佔標稱空間的 3.1%。我們利用這種集中度進行壓縮,將位元分配到有訊號的地方,並跳過沒有訊號處的錯誤修正。在這篇新論文中,我們測量了生產環境 Embedding 模型的參與比,這些模型為每個 RAG 系統、每個向量資料庫、每個語意搜尋引擎提供動力。MiniLM(標稱 384 維)的 d_eff = 15.7。BGE-base(768 維)的 d_eff = 16.6。BGE-large(1,024 維)的 d_eff = 16.3。儘管標稱維度有近 3 倍的差距,但這三個模型都將其變異數集中在約 16 個有效維度中。無論模型宣稱有多少維度,只需 17 到 18 個主成分(principal components)即可解釋 95% 的變異數。

這與我們在 KV 快取中發現的現象相同,出現在技術堆疊中完全不同的部分。在 SpectralQuant 中,低有效維度是一個機會:它告訴我們在哪裡節省位元。在記憶系統中,低有效維度是一個弱點:它導致記憶相互干擾,導致遺忘,並產生虛假回憶。數學原理相同,但含義截然相反。
奇怪的地方在於,根據神經記錄,人類大腦的皮層表徵運作在 100 到 500 的有效維度上。這使得生物記憶正好處於干擾變得不可忽視但又不至於災難性的過渡區。大腦並非設計不良,它是在一個干擾成為中等維度代碼所提供計算優勢之代價的維度上運作。
是什麼讓我們遺忘
每個心理學學生都會學習 Ebbinghaus 遺忘曲線:記憶隨時間呈冪律衰減。該曲線於 1885 年首次記錄,此後在數十種範式中被複製。標準解釋指向生物學:大腦盡了最大努力,但演化留給我們的硬體會「洩漏」。關於其機制,兩種理論爭論了一個多世紀。衰減理論(Decay theories)認為記憶痕跡隨時間消退;干擾理論(Interference theories)認為它們被競爭者擠掉了。
我們測試了兩者。我們編碼了跨越 30 個模擬天的 1,000 個事實,並對檢索分數應用了時間衰減,然後測量遺忘是否看起來像人類曲線。
關鍵測試:遺忘指數取決於衰減函數,還是取決於競爭記憶的數量?
僅有衰減且沒有競爭者時,遺忘指數為 b ≈ 0.009。這比人類數值 b ≈ 0.5 小了五十倍。單純的衰減並不會產生類似人類的遺忘,它幾乎不會產生任何遺忘。
在保持衰減函數不變的情況下增加 10,000 個干擾項,將指數提高到 b = 0.460 ± 0.183,完全在人類數據的範圍內。在這個系統中,產生遺忘的不是時間,而是擁擠。隨著競爭者累積,遺忘曲線逐漸展開,並向經典的 Ebbinghaus 曲線收斂。

想想這意味著什麼。傳統說法是記憶會消退,就像暴露在陽光下的紙上墨水。幾何學的說法不同:記憶不會消退,它們只是在人群中迷失了。墨水還在那裡,但有人在上面堆了 10,000 頁其他紙張,當你去尋找你的那一頁時,你拿錯了。時間的流逝之所以與遺忘相關,僅僅是因為更多的時間意味著在此期間儲存了更多競爭記憶。劑量反應關係證實了這一點:競爭者越多,遺忘越多,且呈單調遞增,指數幾乎與競爭者數量呈線性關係。
維度幻覺
這就是 SpectralQuant 的連結變得直接的地方。
出現了一個明顯的悖論:如果干擾需要低維度(在我們的實驗中 d ≤ 64),那麼它怎麼會與標稱維度為 384 到 1,024 的生產環境 Embedding 模型相關呢?
答案就是我們所說的「維度幻覺」,這與我們在 SpectralQuant 中利用的頻譜集中度相同。當我們計算三個生產環境 Embedding 模型的參與比時,無論它們宣稱的維度如何,它們都將變異數集中在約 16 個維度中。一個聲稱是 1,024 維但將變異數集中在 16 維的模型,實際上並沒有提供 1,024 維的抗干擾保護,它只提供了 16 維。
我們直接證實了其功能性後果。在 MiniLM 原生的 384 維上運行干擾協議,且不進行任何 PCA 投影,產生了災難性的結果:當每個目標有 20 個或更多同類文章的干擾項時,檢索完全崩潰。擬合後的遺忘指數達到 b = 0.678,遠高於 BGE-large 透過 PCA 投影降至 64 維後觀察到的 b = 0.161。是有效維度,而非標稱維度,決定了干擾的脆弱性。

對於任何構建 RAG 系統或長期 Agent 記憶的人來說,實際含義是:你的向量資料庫最終會遺忘。這不是最壞的情況,這是預期的行為,可以根據第一性原理預測。檢索準確度將隨著資料庫大小呈冪律下降。每個無限制增長的向量資料庫都在運行 Ebbinghaus 在 1885 年進行的相同遺忘實驗。
虛假記憶完全不需要工程設計
這是最讓我們驚訝的結果。
Deese-Roediger-McDermott (DRM) 範式是研究人類虛假記憶的黃金標準。參與者學習圍繞一個主題(床、休息、清醒、疲倦、夢……)構建的單字列表,然後被問及他們看到了哪些單字。大約 55% 的情況下,他們會「記住」一個與列表語意相關但未經學習的單字(睡眠)。這不是措辭或實驗設計的技巧,人們真心相信他們看到了那個單字。這是認知心理學中最穩健的發現之一。
我們使用 1,024 維檢索模型編碼的所有 24 個已發表的 DRM 單字列表,複製了這個範式。我們沒有調整任何東西,也沒有設計虛假記憶系統。我們只是計算了查詢與每個編碼單字之間的餘弦相似度,應用了一個閾值,並問:模型是否「記住」了未經學習的誘餌(lure)?
在產生零不相關誤報的閾值下(一個獨立標準,未針對人類數據進行調整),關鍵誘餌的誤報率為 0.583。人類的數值約為 0.55。在零參數調整的情況下,誤差在 3.3 個百分點以內。

之所以有效,是因為幾何結構。Embedding 空間將語意相關的概念放在同一個鄰域中,任何基於閾值的檢索系統都會混淆該鄰域內的項目。這個結果與遺忘結果有一個重要的不對稱性。遺忘需要競爭者,你需要添加干擾記憶,系統才會開始遺忘。虛假記憶則什麼都不需要,它們就存在於意義本身的幾何結構中,等待被檢索。我們沒有構建虛假記憶系統,我們發現它已經存在於語意空間的原始幾何結構中。
這個含義令人不安。虛假記憶不是由故障硬體引入的錯誤,它們是支持泛化(generalization)和模式補全(pattern completion)的相同幾何結構所付出的代價。一個從不混淆相關概念的記憶系統,就是一個無法在這些概念之間進行泛化的記憶系統。這是一個權衡邊界,而不是設計缺陷。
維度保護曲線
我們改變了有效維度,以精確繪製干擾變得危險的位置。結果畫出了一條清晰的界線。
在 d = 64 時,干擾很強:40,000 個同類文章競爭者產生了 b = 0.161 的遺忘指數,數據中可見清晰的冪律遺忘。在 d = 128 時,最大指數降至 b = 0.020:干擾存在但很輕微。在 d ≥ 256 時,無論競爭者數量如何,指數都保持在 0.004 以下。干擾被有效消除。
這種保護來自於測度的集中(concentration of measure):在高維度中,隨機點落在任何固定角度鄰域內的機率呈指數級下降。可以這樣想:在 2 維中,點周圍的「相似」區域是一個覆蓋圓形有意義部分的楔形。在 128 維中,等效的楔形覆蓋了超球體(hypersphere)中極小的一部分。隨著維度增加,隨機競爭者落入你鄰域的機率趨近於零。
這就是與大腦的連結。據估計,皮層表徵運作在 100 到 500 的有效維度上。這使得生物記憶處於過渡區附近:有足夠的維度來防止災難性干擾,但不足以完全消除它。人類遺忘指數(b ≈ 0.5)正好處於我們的模型預測的、具有現實競爭者數量的中等有效維度範圍內。我們並不是說這證明了大腦使用相同的機制。我們指出的是,量化匹配非常驚人,而且它僅僅源於幾何結構,無需任何生物學建模。
間隔重複(Spaced repetition)因幾何原因而有效
間隔效應(分散練習優於集中重複)是記憶研究中最穩健的發現之一。我們複製了它:長間隔保留 = 0.994,中等 = 0.382,短 = 0.292,集中 = 0.230,符合人類的排序(長 > 中 > 短 > 集中),Cohen's d 為 13.1。

在幾何框架中,其機制很直接。在測試時,最近編碼的痕跡受到的雜訊干擾較小。長間隔練習確保了一次重複總是相對較近;集中練習確保所有重複都同樣陳舊。間隔梯度隨著效能上限的雜訊增加而出現,這與心理學文獻中的編碼變異性理論(encoding variability theory)相平行。
舌尖現象源於檢索競爭
我們觀察到舌尖現象(正確記憶在相似度排名中位列第 2 到 20 位,意味著系統「幾乎」檢索到了它)的比例為 3.66 ± 0.13%,而人類比例約為 1.5%。

這種定性現象(你知道你知道它,但就是想不起來)自然地從擁擠的 Embedding 空間中的檢索競爭中產生。該比例比人類高出約 2.4 倍,這表明生物系統具有穩定機制(注意力門控、鞏固),將參數空間縮小到幾何結構本身所規定的範圍之外。我們將此作為定性湧現(qualitative emergence)提出,而非量化對應。
完整記分卡:幾何學 vs 人類數據
在所有五種現象中,幾何框架產生了一致的匹配和接近匹配模式。遺忘指數和 DRM 誤報率顯示出最接近的對應關係。其他現象顯示出與系統性(非隨機)差異的定性一致性。

這對大腦和 LLM 意味著什麼
這些結果不是類比。生物和人工記憶系統共享失效模式,因為兩者都受到相同的幾何約束:低有效維度、語意聚類、雜訊和競爭。這些現象跨越了一個從完全湧現到依賴邊界條件的連續體。虛假記憶位於完全湧現的一端:它們根本不需要邊界條件,只需要語意空間的原始幾何結構。遺忘位於中間:它需要競爭記憶,但僅靠衰減函數是不夠的。間隔效應位於依賴端:它需要特定的雜訊和競爭者參數。這三者都從同一個框架中產生,處於這個連續體的不同點,這本身就是統一幾何解釋的證據。
與 SpectralQuant 發現的收斂並非巧合。相同的頻譜集中度(d_eff 作為標稱維度的一小部分)出現在 KV 快取注意力頭、生產環境 Embedding 模型中,以及(根據神經記錄)生物皮層中。在每一種情況下,參與比都告訴你關於系統的一些基本資訊。在 KV 快取中,它告訴你如何壓縮。在基於 Embedding 的記憶中,它告訴你系統將如何遺忘。在這兩種情況下,答案都由特徵值頻譜(eigenvalue spectrum)決定:有多少維度在真正工作,以及剩餘維度提供了多少抗干擾保護。
生物學決定了給定系統在參數空間中的位置。幾何學決定了當它到達那裡時會發生什麼。對於這裡檢查的核心現象,生物記憶與人工記憶之間的界線比之前假設的要薄。
向量平均謬誤
論文中的一個結果具有直接的工程含義。我們測試了幾何鞏固(透過平均合併附近的 Embedding)是否可以在不損失檢索品質的情況下壓縮不斷增長的記憶儲存。答案是不能。質心合併(Centroid merging)實現了 62.5% 的壓縮,但將反向干擾從 -0.100 增加到 -0.394:近 4 倍的退化。
鑑於頻譜結構,原因現在顯而易見。平均兩個附近的 Embedding 會崩潰區分它們的精細角度差異。在低有效維度空間中,這些角度差異已經很薄了。平均會完全摧毀它們。這就是向量平均謬誤:透過平均附近 Embedding 來壓縮檢索資料庫或總結對話歷史的廣泛工程實踐,不僅是次優的,而且在幾何上是破壞性的。
如果你正在構建一個透過合併相似 Embedding 來去重,或透過平均區塊來總結對話歷史的系統,你就是在運行我們進行的鞏固實驗。結果將是一樣的。檢索保真度將會下降,而且會以我們實驗預測的方式精確下降:不是隨機的,而是透過混淆之前可區分的項目。
更廣闊的圖景
這三項工作是如何結合在一起的:
SpectralQuant 發現 KV 快取鍵向量集中在 128 維中的約 4 維。我們利用這一點進行壓縮:比已證明的近乎最佳界限好 18.6%,注意力速度快 4.5 倍,15 秒校準。頻譜間隙是一個機會。
Shaped Cache 實驗表明,變異數集中度並不等於資訊:你不能丟棄 97% 的「雜訊」維度,因為它們共同承載了點積(dot product)的決定性訊號。420 次實驗證實了這一點。頻譜間隙是有極限的。
《遺忘的幾何學》表明,相同的頻譜集中度決定了任何基於相似性的記憶系統能記住什麼和不能記住什麼。d_eff ≈ 16 的 Embedding 模型運作在干擾脆弱區,由此產生的遺忘曲線與 Ebbinghaus 在 1885 年測量的曲線相符。虛假記憶無需任何工程設計,直接從語意空間的幾何結構中湧現。頻譜間隙不僅僅是一種壓縮現象。它是決定記憶運作方式的幾何結構,無論基質是矽還是皮層。
相同的特徵值頻譜。三種不同的後果。壓縮、注意力、記憶。全部由有多少維度在真正工作所決定。
論文:The geometry of forgetting (Arxiv, 2604.06222)
程式碼與資料:https://github.com/Dynamis-Labs/hide-project
這是繼《3% Is All You Need: Breaking TurboQuant's Compression Limit via Spectral Structure》和《Variance is Not Information: The Shaped Cache Experiment》之後的系列第三篇。這三項工作都源於 Sentra 的研究計畫,我們正在那裡構建企業通用智慧:一個位於所有通訊管道和 Agent 痕跡之上的共享 AI 層,以了解組織中的每個人實際上是如何工作的,以及工作是如何完成的,並近乎即時地構建整個公司的活體世界模型。
