Cloudflare推出Agent Memory私有測試版,解決Agent對話中資訊提取與即時回憶問題
Cloudflare推出Agent Memory私有測試版,解決Agent對話中資訊提取與即時回憶問題,避免context window過載。
Cloudflare於2026-04-17宣布「Agent Memory」私有測試版,這是管理式服務,從Agent對話中提取資訊,讓其在需要時可用,而不佔用context window。即使context window擴大超過100萬token,context rot仍是未解難題,開發者面臨兩難:保留全部context導致品質衰退,或過度修剪風險遺失關鍵資訊。
Agent記憶現況與挑戰
Agentic memory是人工智慧基礎設施中最快速演進領域,新開源程式庫、管理服務與研究原型幾乎每週推出。基準測試如「LongMemEval」、「LoCoMo」與「BEAM」提供比較,但易導致系統過度擬合評估而在生產環境失效。現有方案架構差異大,有些是背景處理提取與檢索的管理服務,有些是自架記憶管線;有些提供受限API避免記憶邏輯干擾主context,有些讓模型直接存取資料庫或檔案系統,浪費token於儲存策略而非任務本身。有些試圖塞入context window,甚至跨多Agent分割,其他則用檢索僅浮現相關內容。
Cloudflare認為管理服務搭配意見導向API與檢索架構是最適合大多生產負載的預設選擇,比給Agent原始檔案系統存取更優,提供更好成本、效能,並支撐生產所需複雜推理如時間邏輯、取代與指令遵循。雖然未來可能開放程式化查詢,但預期僅限邊緣案例。Cloudflare建置Agent Memory是因平台負載暴露現有方案缺口:Agent需運行數週或數月對真實程式庫與生產系統,記憶須隨成長保持有用,而非僅在乾淨基準資料集表現佳(這些資料可能全塞入新模型context window)。它需快速攝取、不阻擋對話的檢索,並在合理每查詢成本模型上運行。
使用方式
Agent Memory將記憶儲存於以名稱定址的profile,提供多項操作:
- 攝取對話(ingest,通常在harness壓縮context時呼叫)。
- 記住特定事項(remember,讓模型即時儲存重要內容)。
- 回憶所需(recall,執行完整檢索管線並回傳合成答案)。
- 列出記憶或忘記特定記憶。
透過Cloudflare Worker綁定存取,也支援Worker外Agent的REST API,遵循其他Cloudflare開發者平台API模式。若用「Cloudflare Agents SDK」,Agent Memory作為「Sessions API」記憶部分的參考實作,整合壓縮、記住與搜尋記憶。
建置應用範例
Agent Memory適用多種Agent架構:
- 單一Agent記憶:無論用如「Claude Code」或「OpenCode」的人機迴圈程式撰寫Agent、自架如「OpenClaw」或「Hermes」代理,或管理服務如「Anthropic’s Managed Agents」,皆可無改核心迴圈即作為持久記憶層。
- 自訂Agent harness:團隊自建Agent基礎設施如背景自主Agent,「Ramp Inspect」為公開範例,「Stripe」與「Spotify」有類似系統,可讓Agent跨會話持久記憶並存活重啟。
- 跨Agent、人與工具共享記憶:profile不限單Agent,工程團隊可共享,讓一人程式撰寫Agent學得知識(如程式撰寫慣例、架構決策、部落知識)供全員用,避免context修剪遺失或僅存腦中。程式碼審核bot與程式撰寫Agent共享記憶,讓審核回饋形塑未來程式碼生成。Agent累積知識從短暫變持久團隊asset。
雖然搜尋是記憶一部分,但AI Search(跨非結構化/結構化檔案找結果)與Agent Memory(context回憶)解決不同問題,前者為檔案原生,後者源自會話衍生,可互補使用。
資料所有權承諾
Agent愈強大嵌入業務,累積記憶愈成珍貴資產,不僅營運狀態,更是耗工建構的機構知識。客戶擔憂綁單供應商提高轉換成本合理。Agent Memory雖管理服務,但資料屬使用者,每記憶皆可匯出,Cloudflare承諾讓Cloudflare上Agent知識可隨需求離開,透過易離開賺取長期信任,並持續建置讓使用者不想離開的產品。
運作原理
Agent context生命週期關鍵為壓縮(compaction),harness縮短context避模型限制或context rot,多數Agent永久丟棄資訊,Agent Memory改為保存知識。整合兩途徑:
- 壓縮時大量攝取:harness壓縮context時,將對話送Agent Memory攝取,從訊息歷史提取事實、事件、指令、任務,與現有記憶去重並儲存為未來檢索記憶。
- 模型直接工具互動:模型獲工具直接操作記憶,如回憶(特定資訊搜尋)、記住(明確儲存)、忘記(標記不再重要/真實)、列出(檢視儲存內容)。這些輕量操作免模型設計查詢或管儲存,主Agent不浪費context於儲存策略,工具介面刻意受限讓記憶不礙任務。
Agent三大元件:harness驅動模型重複呼叫、促工具呼叫、管理狀態;模型取context回補全;狀態含當前context window與外部如對話歷史、檔案、資料庫、記憶。
攝取管線細節
對話抵達經多階段管線提取、驗證、分類、儲存。
- 確定性ID生成:每訊息獲內容定址ID(SHA-256雜湊session ID、角色、內容,截128位元),重複攝取具冪等性。
- 提取器雙迴圈:全迴圈大致10K字元分塊、雙訊息重疊、並行最多四塊,每塊產結構化transcript(角色標籤、相對日期轉絕對如「yesterday」成「2026-04-14」、行索引追蹤來源)。長對話(9+訊息)並行細節迴圈,聚焦名稱、價格、版本號、實體屬性,合併結果。
- 驗證:八項檢查涵蓋實體/物件身分、位置/時間/組織脈絡、完整/關係脈絡、推斷事實是否對話支持,通過/修正/丟棄。
- 分類四類:
- Facts:當前原子穩定知識,如「專案用GraphQL」或「使用者偏暗黑模式」。
- Events:特定時間發生,如部署/決策。
- Instructions:作法如程序、工作流程、runbooks。
- Tasks:當前工作,設計短暫。
Facts/Instructions有規範化主題key,同key新記憶取代舊(非刪),建版本鏈(舊指新)。Tasks排除向量索引但全文字搜尋可發現。
- 儲存:用INSERT OR IGNORE略過重複,背景非同步向量化,嵌入文字前綴分類時3-5搜尋查詢,橋接宣告寫入(如「使用者偏暗黑模式」)與查詢式搜尋(如「使用者要何主題?」)。取代記憶向量並行刪除。
檢索管線細節
查詢經獨立管線,開發發現無單一方法全優,故並行多法融合。
- 第一階段:並行查詢分析與嵌入,分析產排序主題key、全文字搜尋詞彙同義詞、「HyDE」(假設文件嵌入,宣告式答案陳述)。嵌入原始查詢,下游皆用。
- 第二階段五管道並行:
- 全文字搜尋(Porter stemming):關鍵字精準,知確切詞彙不知脈絡。
- 確切fact-key查詢:直接對應已知主題key。
- 原始訊息搜尋:全文字搜尋未分類片段,作為安全網抓提取泛化遺漏逐字細節。
- 直接向量搜尋:用嵌入查詢找語意相似記憶。
- HyDE向量搜尋:找類似答案外觀記憶,常補抽象/多跳查詢(問答詞彙異)。
- 第三階段:用「Reciprocal Rank Fusion (RRF)」合併,每結果依各管道排名加權分數,fact-key最高,全文字/HyDE/直接向量依訊號強度,原始訊息低權重安全網。平手依新近排序。
頂級候選送合成模型產自然語言答案,特定查詢特殊處理如時間計算用regex與算術確定性,非LLM(模型不可靠日期運算)。
開發歷程
初始原型輕量(基本提取、向量儲存、簡單檢索),證明概念但不足生產。置入Agent驅動迴圈迭代:跑基準、析缺口、提解方、人審選泛化策略(非過擬合)、Agent改動、重複。挑戰為LLM隨機性(即使溫度零),需多跑平均趨勢分析,避免過擬合基準非真改善。經多基準(LoCoMo、LongMemEval、BEAM)測試,達穩定改善與泛化架構。
Cloudflare技術棧優勢
Cloudflare用自家建Agent Memory,強大易組原語讓首原型週末完成,完整生產內部版一月內。核心為Cloudflare Worker協調:
- 「Durable Object」:存原始訊息與分類記憶。
- 「Vectorize」:嵌入記憶向量搜尋。
- 「Workers AI」:跑LLM與嵌入模型。
每記憶context對應獨立Durable Object與Vectorize索引,全隔離易擴展。 - 運算隔離:每profile獨Durable Object(SQLite背書),強隔離無基礎設施負荷,管FTS索引、取代鏈、交易寫入,getByName()讓任請求直達profile。
- 分層儲存:記憶內容SQLite DO,向量Vectorize,未來快照/匯出至R2低成本長期存,各原語專屬負載。
- 本地模型推論:全提取/分類/合成管線跑「Workers AI」部署Cloudflare網路,會話親和header路由profile名,享提示快取。
模型選擇上,Cloudflare指出更大模型非總優,針對結構化任務使用高效模型,並在合成階段利用參數較大的模型來強化自然語言答案,以在成本、品質與延遲之間取得平衡。
內部應用
Cloudflare內部用Agent Memory於自家工作流,作為驗證場與idea源。「OpenCode」內部plugin整合開發迴圈,提供跨會話壓縮記憶,更妙為團隊共享profile,讓Agent知團隊其他成員已學知識。
Today we're announcing the private beta of Agent Memory, a managed service that extracts information from agent conversations and makes it available when it’s needed, without filling up the context window. https://t.co/tcyjIzpiHd
— Cloudflare (@Cloudflare) April 17, 2026
