# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Michael Y. Li (@michaelyli__) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/michaelyli__/status/2047019938339340602

## 中文摘要

語言模型能否端到端學習管理KV快取，邊推理邊遺忘？

**NGC核心概念**  
「Neural Garbage Collection (NGC)」讓語言模型透過單一任務獎勵的強化學習，端到端 (End to End) 同時學習推理與KV快取管理，無需監督微調 (SFT)、代理目標或自然語言摘要。作者Michael Y. Li強調，深度學習的核心教訓是能力從端到端最佳化湧現，而非依賴人工設計的啟發式或強歸納偏置；現有效率方案過度仰賴手動方法，NGC則讓模型自行管理記憶。

**長推理的KV快取瓶頸**  
當語言模型進行更長的思考鏈 (chain-of-thought) 推理時，能解決原本無法觸及的問題，但每個推理步驟皆膨脹KV快取，形成測試時擴展的瓶頸。NGC透過強化學習 (RL) 訓練模型邊推理邊管理快取：模型定期暫停，(1) 用自身注意力機制評分快取項目，(2) 透過Gumbel top-k技巧抽樣驅逐項目，(3) 從修剪後快取繼續推理。

**端到端聯合優化機制**  
語言模型已透過RL訓練推理，每個token為從模型抽樣的離散動作，受任務獎勵塑造；NGC將KV快取驅逐視為另一離散動作，同樣由模型抽樣，具精確對數機率，便於政策梯度優化。單一基於結果的任務獎勵端到端訓練一切：模型驅逐的內容形塑其記憶→記憶形塑推理→推理正確性即獎勵，無需額外參數、獨立評分模組或分階段訓練。

**評分與抽樣創新**  
預訓練已賦予模型對相關性良好的先驗，NGC直接用其注意力機制評分快取項目，無需新訓練超出RL本身。快取驅逐原本確定性，NGC轉為隨機動作，使用Gumbel top-k基於模型評分抽樣，確保token與驅逐皆為可計算對數機率的離散動作，讓政策梯度（推理模型訓練主力）同時優化兩者。

**實證成果與基準比較**  
在AIME 2025、Countdown及AMC任務上，NGC於峰值KV快取大小壓縮2-4倍時，大幅優於手動設計基準，維持相對於全快取上限的強大推理準確率；Countdown及AMC達2-3倍壓縮仍保有高準確度。作者批判現有方法由模型外部管理限制，NGC證明端到端學習可取代人工設計。

**預算感知內省功能**  
NGC讓模型感知自身記憶預算：在推理前於提示中注入<eviction_rate>50%</eviction_rate>，模型「感測」約束後思考，此「budget-aware interoception」在激進壓縮率下提升8–13%表現，並改善對未訓練預算的泛化，強化模型自我改進。

**更廣遠景與論文資訊**  
此論文為邁向廣大願景的第一步：端到端最佳化不僅驅動能力，還能驅動效率，讓語言模型在能力與效率上自我提升。作者與Jubayer Ibn Hamid、Emily B. Fox、Noah D. Goodman合著，論文發表於2026年4月20日（https://arxiv.org/abs/2604.18002），強調若模型能學會推理，為何不能學會遺忘，挑戰當前手動管理的可擴展性限制。

## 標籤

LLM, 研究論文, Neural Garbage Collection
