# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：mem0 (@mem0ai) · 平台：X (Twitter) · 日期：2026-04-24

> 原始來源：https://x.com/mem0ai/status/2047700288321331551

## 中文摘要

# ICLR 2026 重點摘要：AI Agent 記憶

本週 ICLR 2026 在巴西里約熱內盧舉行。共有 5 篇論文探討了 Agent 應如何處理記憶：

- Google 的 TurboQuant 將 KV cache 壓縮了 5 倍。

- MEM1 訓練了一個 7B 的 Agent，其準確度達到 14B 基線模型的 3.5 倍，且記憶體消耗減少了 3.7 倍。

- BEAM 研究顯示，即使擁有 100 萬 token 的視窗，在長程記憶任務中效能仍會下降。

- LightMem 將記憶 token 減少了高達 38 倍，執行時間縮短了高達 12.4 倍。

- MemoryAgentBench 顯示，所有受測的頂尖模型都會隨著增量互動的累積而效能下降。

ICLR 2026 甚至為記憶議題舉辦了專門的研討會：MemAgents。

在 Mem0，記憶是我們的核心，我們持續追蹤研究人員在 ICLR 2026 關注的內容。

以下是五篇值得一讀的論文。

## TL;DR：這 5 篇關於 Context 與記憶的論文

1. TurboQuant (Google Research + Google DeepMind + NYU)：透過一次隨機旋轉加上純量量化，逼近資訊理論的下界。在零可察覺品質損失的情況下，實現 5 倍 KV cache 壓縮；在 1536 維的 OpenAI embedding 上，速度比 Product Quantization 快約五個數量級，比 RabitQ 快六個數量級。

2. BEAM (Alberta + UMass Amherst)：針對長期記憶的新基準測試。無論是否使用檢索增強，擁有 100 萬 token 視窗的 LLM 都會隨著對話拉長而效能下降。

3. LightMem (Zhejiang + NUS)：記憶操作是 Agent 迴圈中的延遲瓶頸。實現了 token 層級的檢索壓縮，品質保持不變，且成本隨對話長度縮減。

4. MEM1 (SMART + NUS + MIT + Yonsei)：透過 RL (強化學習) 訓練 Agent 在每個回合重寫自己的記憶。在 16 個目標的多跳 QA 任務中，MEM1-7B 的準確度達到 Qwen2.5-14B-Instruct 的 3.5 倍，且記憶體消耗減少 3.7 倍。具備超越訓練長度的泛化能力。

5. MemoryAgentBench (UCSD)：借鑒認知心理學的增量多輪對話基準測試。所有受測模型都會隨著增量互動的累積而效能下降。

📄 論文：arxiv.org/abs/2504.19874 

這篇論文在零品質損失下將 KV cache 壓縮了 5 倍，速度比先前的向量量化器快了六個數量級。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065229905-diaHGrf3OwbcAAxDojpg.jpg)

Zandieh 等人證明，透過一次隨機旋轉，接著進行逐座標的純量量化，即可在 MSE 和內積失真方面都逼近資訊理論的下界。無需調整，無需針對資料集進行校準，且支援線上運作。

數據表現：
在每個通道 3.5 bits 的情況下，TurboQuant 在 KV cache 壓縮上達到了絕對的品質中立。在 2.5 bits 時，效能下降也微乎其微。這意味著在沒有可察覺損失的情況下，快取記憶體實現了 5 倍壓縮。

在 Llama-3.1-8B 的「大海撈針」(needle-in-haystack) 測試中，4 倍壓縮下的召回率維持在 0.997，與全精度基線完全相同。

在 1536 維的 OpenAI embedding 上，量化速度為：
- TurboQuant：0.0013 秒
- Product Quantization：239.75 秒
- RabitQ：2267.59 秒

這比最強大的現有方法快了六個數量級。

為什麼這很重要：Agent 的記憶受限於 KV cache 成本，而非模型大小。在零品質損失下實現 5 倍快取縮減，意味著你可以免費將已部署 Agent 的 context window 擴大 5 倍。無需重新訓練，無需收集資料，只需要一次旋轉。

論文引用：「對於任何位元寬度 b ≥ 0，D_mse ≤ (√3π/2) · (1/4^b)。」翻譯：你每增加一個 bit，失真度就會減少 4 倍，且與理論底線的常數差距僅為 2.7。接近最佳化。

## 2. 超越百萬 Token，University of Alberta 與 UMass Amherst

📄 論文：arxiv.org/abs/2510.27246 

這篇論文證明了 100 萬 token 的 context window 並不等於 100 萬 token 的記憶，即使完整文件都塞進了 context 裡也是如此。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065229901-iaHGrgJaVaIAEYbL5jpg.jpg)

Tavakoli、Salemi、Ye、Abdalla、Zamani 和 Mitchell 推出了 BEAM 基準測試。該基準包含 100 場長篇對話，長度從 10 萬到 1000 萬 token 不等，並包含 2,000 個經由人工標註驗證的探測問題。

測試了三種方法：
- 長 context LLM：將完整對話歷史輸入模型。包含 GPT-4.1-nano、Gemini-2.0-flash (皆為 1M)、Qwen2.5-32B-AWQ (128K)、Llama-4-Maverick-fp8。
- RAG 基線：每個使用者與助理的回合對都透過 BGE 進行 embedding 並儲存在 FAISS 中。取 Top-5 檢索結果放入 32K 的 context window。
- LIGHT：作者提出的框架。同時運作三個記憶系統：用於檢索過去對話的長期情節記憶、用於當前回合視窗的短期工作記憶，以及一個跨回合累積重要事實的暫存區 (scratchpad)。

測試的記憶能力共有十項，其中七項改編自先前的基準測試，三項為本文新引入：
- 棄權 (Abstention)：當缺乏證據時拒絕回答
- 矛盾解決 (Contradiction Resolution)：調和相隔甚遠的回合中不一致的陳述
- 事件排序 (Event Ordering)：重構資訊演變的順序
- 資訊提取 (Information Extraction)：從長歷史中回憶特定實體與事實細節
- 資訊更新 (Information Update)：隨著新資訊出現修正已儲存的事實
- 指令遵循 (Instruction Following)：在長 context 中持續遵守使用者指定的限制
- 多跳推理 (Multi-hop Reasoning)：整合非相鄰對話片段中的證據
- 偏好遵循 (Preference Following)：根據不斷變化的使用者偏好調整回應
- 摘要 (Summarization)：抽象並壓縮長對話內容
- 時間推理 (Temporal Reasoning)：推論顯性與隱性的時間關係

BEAM 獨有的三項能力是指令遵循、事件排序和矛盾解決。

研究發現：
即使是擁有 100 萬 token context window 的 LLM，無論是否有檢索增強，隨著對話拉長，效能都會掙扎。LIGHT 在平均表現上比最強的基線提升了 3.5% 到 12.69%，其中在摘要 (+160.6%)、偏好遵循 (+76.5%)、資訊提取 (+56.7%) 和時間推理 (+56.3%) 方面的提升最為顯著。

這篇論文證明了模型之外需要一個獨立的記憶層。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065230020-iaHGrgaAfaEAA8xXPpng.png)

儲存庫：github.com/mohammadtavakoli78/BEAM

## 3. MEM1，SMART + NUS + MIT + Yonsei

📄 論文：arxiv.org/abs/2506.15841

這篇論文透過 RL 訓練 Agent 在每個回合重寫自己的記憶，實現了 3.5 倍的準確度提升與 3.7 倍的記憶體節省。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065230151-iaHGrg8ItacAE9Wy7jpg.jpg)

Zhou、Qu、Wu、Kim、Prakash、Rus、Zhao、Low 和 Liang 主張記憶與推理不應分開。現今大多數 Agent 將過去的每個回合附加到 context 中，並讓模型自行決定關注什麼。MEM1 透過強化學習進行 End to End (端到端) 訓練，讓 Agent 維持一個緊湊的共享內部狀態，同時支援記憶整合與推理。

Agent 在每個回合重寫自己的記憶，捨棄不相關的內容，並強化對任務重要的資訊。

在 16 個目標的多跳 QA 任務上的數據：

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065229911-iaHGrhdEga0AA5eL7png.png)

在三個領域進行了測試：內部檢索 QA、開放領域網頁 QA 以及多輪網頁購物。該 Agent 展現了超越訓練長度的泛化能力。

為什麼這很重要：這篇論文將記憶定義為一種與推理共同訓練的學習行為，而非一個獨立的檢索子系統。

## 4. LightMem，Zhejiang University

📄 論文：arxiv.org/abs/2510.18866

這篇論文將記憶 token 減少了高達 38 倍，並將執行時間縮短了高達 12.4 倍，同時保持或提升了品質。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065230170-iaHGri7LgasAAg7Nyjpg.jpg)

Fang、Deng、Xu、Jiang、Tang、Xu、Deng、Yao、Wang、Qiao、Chen 和 Zhang 提出了記憶議題的效率面向。

LightMem 是一個記憶增強生成系統，其觀察到 Agent 迴圈中大多數的記憶檢索都是浪費的 token。該系統在 token 層級壓縮記憶操作，使得從記憶中檢索的成本僅為傳統向量儲存往返成本的一小部分。

論文報告指出，在長對話基準測試中，該系統在保持生成品質不變的同時，降低了記憶操作的運算量。效率隨 context 長度擴展：對話時間越長，與全檢索基線的差距就越大。

為什麼這很重要：這篇論文將記憶延遲視為一種隨對話長度變化的可衡量成本，而非將檢索視為單一操作。

儲存庫：github.com/zjunlp/LightMem

## 5. MemoryAgentBench，UCSD

📄 論文：arxiv.org/abs/2507.05257

這篇論文顯示，所有受測的頂尖模型（無論是專有還是開源）都會隨著增量多輪互動的累積而效能下降。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777065230023-iaHGrhntKbAAAv7Gbjpg.jpg)

Hu、Wang 和 McAuley 發布了業界迫切需要的評估標準。

MemoryAgentBench 透過增量多輪互動來衡量 LLM Agent 的記憶能力。資訊在對話過程中分批提供，隨後評估 Agent 是否能檢索、組合或對先前引入的事實採取行動。

該基準測試涵蓋四種能力：精確檢索、測試時學習、長程理解和選擇性遺忘。它測試了專有模型 (GPT-4o, Claude-3.7-Sonnet, Gemini-2.0-Flash) 以及開源替代方案。

核心發現：沒有任何受測模型能妥善處理這四種能力的增量記憶。效能會隨著對話長度增加而下降。

資料集：huggingface.co/datasets/ai-hyz/MemoryAgentBench

程式碼：github.com/HUST-AI-HYZ/MemoryAgentBench

## 總結

AI 的前沿發展並不單純依賴更大的 context。
這裡有三個可拆解的問題：

1. 更便宜地儲存你已有的內容 (TurboQuant, LightMem)
2. 針對大規模場景下實際損失的內容進行更好的基準測試 (BEAM, MemoryAgentBench)
3. 在推理過程中學習記憶壓縮 (MEM1)

如果你正在建構一個執行時間超過單次請求的 Agent，這三點都很重要。ICLR 2026 的 MemAgents 研討會正是致力於探討這些問題。

記憶不是一項功能，它是基礎。

## 參考文獻

- Zandieh, Daliri, Hadian, Mirrokni. "TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate." 2025. arXiv:2504.19874.

- Tavakoli, Salemi, Ye, Abdalla, Zamani, Mitchell. "Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs." 2025. arXiv:2510.27246.

- Fang, Deng, Xu, Jiang, Tang, Xu, Deng, Yao, Wang, Qiao, Chen, Zhang. "LightMem: Lightweight and Efficient Memory-Augmented Generation." 2025. arXiv:2510.18866.

- Zhou, Qu, Wu, Kim, Prakash, Rus, Zhao, Low, Liang. "MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents." 2025. arXiv:2506.15841.

- Hu, Wang, McAuley. "Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions." 2025. arXiv:2507.05257.

---

In Context #7

本部落格是 In Context 系列的一部分，該系列涵蓋了 AI Agent 記憶與 context 工程。

mem0 是一個智慧型、開源的記憶層，專為 LLM 和 AI Agent 設計，旨在提供跨對話的長期、個人化且具備 context 意識的互動。

- 在此取得免費 API Key：app.mem0.ai
- 或從我們的開源 GitHub 儲存庫自行部署 mem0

## 標籤

研究論文, Agent, 記憶系統, Google, ICLR
