AI Agent記憶工具分為記憶後端與脈絡基質兩大陣營

AI Agent記憶工具分為記憶後端與脈絡基質兩大陣營。
作者檢視GitHub上450+「agent-memory」與460+「context-management」程式庫,發現非預期的40種相似工具,而是兩種根本不同範式,大多數人未劃清界線,且第二類缺乏專有名詞。我在Mac Mini M4上運行24/7 Agent設定,每場工作會話皆累積前次內容,此經驗凸顯分裂:多數記憶工具無法支撐此架構,能運作者卻未被視為記憶工具。
兩大陣營區分
第一陣營「記憶後端」從對話提取事實,存入向量資料庫,需時檢索相關者,如自動筆記員,核心問題為「AI該記住什麼?」。
第二陣營「脈絡基質」維持跨會話累積的結構化、人可讀脈絡,無提取過程,脈絡即檔案:Agent讀取、運作於其中、寫回,整體隨時間複合。核心問題為「AI該在何種脈絡中運作?」。
大多數領域(及GitHub星數)屬第一陣營,但第二陣營正孕育可擴展至連續、多會話、多專案的架構,相關語言正轉向此方向。
第一陣營:記憶後端詳解
Mem0(53.1k星)為採用率領先者,四大操作:新增、搜尋、更新、刪除,從對話提取事實,按三層(使用者、會話、Agent)儲存,透過混合搜尋檢索。
- 極易整合,提供Python與TypeScript SDK,相容一切。
- 限制:記憶為平面條目,無關聯性;每次提取需LLM呼叫,品質全賴提示詞;儲存後不演化,一月事實與四月事實並置,無取代概念。
MemPalace(46.2k星)強調本地優先逐字記憶,非提取事實,而是逐字儲存對話,按「翼」(實體)、「房間」(主題)、「抽屜」(原始內容)組織,使用ChromaDB搜尋。
- 基準測試領先:LongMemEval純語意搜尋達96.6%檢索召回率,無API呼叫、無LLM;混合管線98.4%;LLM重排序99%+。
- 限制:逐字儲存線性擴張,對話越多越大,無壓縮、無合成;適合「找三週前提及」,不適合「五專案當前狀態」。
Supermemory(21.8k星)明定位「記憶非RAG」,差異在時間意識,如說「我剛搬到舊金山」即取代舊城市,過期事實自動遺忘;使用者檔案合併穩定事實與近期活動,檢索約50ms。
- 連接Google Drive、Gmail、Notion、OneDrive、GitHub;多模態支援PDF、圖像、影片、程式碼。
- 自建MemoryBench基準,自稱LongMemEval、LoCoMo、ConvoMem第一。
- 第一陣營最接近思考狀態而非純儲存。
Honcho(2.4k星)架構獨特,將人與Agent視為統一模型「同儕」,背景非同步推理服務從會話推導心理洞察,非僅記說了什麼,而是建構思考模式。
- 需PostgreSQL + pgvector,AGPL-3.0(限制性),基礎設施較重。
- 第一陣營最注重實體演化。
其他如Cognee(15.4k)合向量搜尋與圖資料庫助關聯推理;Memori(13.3k)攔截LLM API捕捉執行脈絡,LoCoMo達81.95%僅用4.97%完整脈絡token;AgentScope、MemOS、EverOS、MIRIX、SimpleMem、Memobase等,皆同循環變體。
第一陣營共同特徵與侷限
所有工具循相同循環:對話發生→系統提取事實或儲存內容→事實入資料庫(向量、圖或兩者)→下次對話檢索注入。
智慧在提取與檢索,人類與Agent互動,記憶系統幕後運作,使用者不直接碰觸,信任系統記對並適時浮現。此有效,基準證明,但僅解「事實召回」:「X提過什麼?」「使用者偏好為何?」。
未觸及另一問題:連續、多專案狀態累積。
第二陣營:脈絡基質詳解
OpenClaw(358k星)記憶架構核心為純Markdown檔案:MEMORY.md長存、每日筆記(YYYY-MM-DD.md)運行脈絡、DREAMS.md彙總。
- 文件哲學:「模型僅『記住』存盤者,無隱藏狀態」。
- 無向量資料庫、無提取管線,Agent讀寫檔案。
- 最有趣「夢境」:背景三階段彙總每日筆記至長存:
- 淺眠:篩每日筆記,群組鄰近行成連貫塊。
- REM:權重召回提升,頻訪資訊成「持久真理」。
- 深眠:重播安全提升至MEMORY.md,調和而非重複。
- 僅過閾值者提升:最低分0.8、最低召回3、最低獨特查詢3;六權重訊號評分:相關性(0.30)、頻率(0.24)、查詢多樣(0.15)、新近(0.15)、彙總(0.10)、概念豐富(0.06)。
Zep(4.4k星)最近改定位「記憶」為「脈絡工程」,最強市場訊號:獲資公司察覺空間走向,棄「記憶」一詞。
- 內部用時間知識圖(Graphiti框架),事實含valid_at與invalid_at時間戳;自動提取關係,回傳LLM最佳化脈絡塊;檢索低於200ms;SOC2 Type 2與HIPAA相容。
- 架構介兩營,仍提取檢索,但改名顯示傾向第二陣營。
Thoth(145星)微型專案,卻最深架構:建個人知識圖,10實體類型連67定向關係;FAISS向量搜尋加一跳圖擴展前LLM呼叫。
- 夜間「夢境循環」四階段:相似度0.93+合併重複→對話脈絡豐富描述→推斷共現實體關係→90天舊關係信心衰減。
- 三層防污染阻跨實體事實滲漏,最精密自動記憶精煉;星數低因需認真設知識圖,多數人不為。
TrustGraph(2.0k星)引「脈絡核心」,可攜、版本化捆綁含領域綱要、知識圖、向量嵌入、證據來源、檢索政策;視脈絡如程式碼:版本、測試、提升、回滾。
- 第一陣營視記憶為對話副效應,此視脈絡為一級文物,有身份、生命週期;可交脈絡核心給新Agent繼承全運作脈絡,或分叉實驗後合併。
- 最接近封裝可攜脈絡單位;實作重(Cassandra + Qdrant),概念正確。
MemSearch(Zilliz出,1.2k星)Markdown優先,從Milvus團隊;記憶為.md檔案,人可讀、可編輯、可版本;Milvus為「陰影索引」,全重建;檔案為真相來源,向量搜尋僅存取層。
- 三層漸進揭露:語意塊→完整區段→原始記錄;混合搜尋(密集向量 + BM25 + RRF重排序)。
- notable:向量資料庫公司讓自家產品從屬檔案,承認真相源頭。
第二陣營共同特徵與優勢
循環不同:Agent先讀結構脈絡→於脈絡內運作→Agent(或背景)寫回→下會話脈絡更豐富。
智慧在累積,脈絡即記憶;因為檔案(Markdown、知識圖、脈絡容器),人類可讀、編輯、修正、懂Agent所知。
第一陣營優化召回:「系統找對事實?」;第二優化複合:「系統隨時更好?」。
未來走向與作者實作
24/7 Agent模式顯示:記憶與脈絡非同題;Agent不需記「偏好暗黑模式」,而需運作於含活躍專案、同事、近期決策、昨日事件之脈絡,且明日更豐富。
記憶後端解召回:96%+準確、低200ms延遲、即插API;聊天機器人記偏好用Mem0或MemPalace足矣。
但連續Agent——睡時運作、共用知識庫、數週月有意義進步——需脈絡基質。
預測:6個月內「脈絡工程」取代「記憶」成嚴肅Agent基礎設施標準詞;基質架構專案將領先事實儲存框架,基準將重寫或新替。
作者合作專案ALIVE(alivecontext.com / @AliveContext_):結構脈絡基質、檔案原生、Agent無關;walnuts為可攜脈絡容器,零基礎依賴、純檔案複合。用於Hermes Agent atop Mac Mini與Claude Code,此令設定運作而非每會話重置。
此類需名,作者推「脈絡基質」;建多於一對話Agent,必趨此途。
— witcheer ☯︎ (@witcheer) April 15, 2026