# Cloudflare推出Agent Memory私有測試版，解決Agent對話中資訊提取與即時回憶問題，避免context window過載

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Cloudflare (@Cloudflare) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-04-18

> 原始來源：https://x.com/Cloudflare/status/2045162949182910916

## 證據與延伸閱讀

- [cloudflare.com](https://blog.cloudflare.com/introducing-agent-memory/)
- [dev.to/jtorchia/cloudflare-as-an-inference-layer-for-agents-what-it-promises-and-what-worries-me-1j3](https://dev.to/jtorchia/cloudflare-as-an-inference-layer-for-agents-what-it-promises-and-what-worries-me-1j3)

## 中文摘要

Cloudflare推出Agent Memory私有測試版，解決Agent對話中資訊提取與即時回憶問題，避免context window過載。

Cloudflare於2026-04-17宣布「Agent Memory」私有測試版，這是管理式服務，從Agent對話中提取資訊，讓其在需要時可用，而不佔用context window。即使context window擴大超過100萬token，context rot仍是未解難題，開發者面臨兩難：保留全部context導致品質衰退，或過度修剪風險遺失關鍵資訊。

**Agent記憶現況與挑戰**
Agentic memory是人工智慧基礎設施中最快速演進領域，新開源程式庫、管理服務與研究原型幾乎每週推出。基準測試如「LongMemEval」、「LoCoMo」與「BEAM」提供比較，但易導致系統過度擬合評估而在生產環境失效。現有方案架構差異大，有些是背景處理提取與檢索的管理服務，有些是自架記憶管線；有些提供受限API避免記憶邏輯干擾主context，有些讓模型直接存取資料庫或檔案系統，浪費token於儲存策略而非任務本身。有些試圖塞入context window，甚至跨多Agent分割，其他則用檢索僅浮現相關內容。
Cloudflare認為管理服務搭配意見導向API與檢索架構是最適合大多生產負載的預設選擇，比給Agent原始檔案系統存取更優，提供更好成本、效能，並支撐生產所需複雜推理如時間邏輯、取代與指令遵循。雖然未來可能開放程式化查詢，但預期僅限邊緣案例。Cloudflare建置Agent Memory是因平台負載暴露現有方案缺口：Agent需運行數週或數月對真實程式庫與生產系統，記憶須隨成長保持有用，而非僅在乾淨基準資料集表現佳（這些資料可能全塞入新模型context window）。它需快速攝取、不阻擋對話的檢索，並在合理每查詢成本模型上運行。

**使用方式**
Agent Memory將記憶儲存於以名稱定址的profile，提供多項操作：
- 攝取對話（ingest，通常在harness壓縮context時呼叫）。
- 記住特定事項（remember，讓模型即時儲存重要內容）。
- 回憶所需（recall，執行完整檢索管線並回傳合成答案）。
- 列出記憶或忘記特定記憶。
透過Cloudflare Worker綁定存取，也支援Worker外Agent的REST API，遵循其他Cloudflare開發者平台API模式。若用「Cloudflare Agents SDK」，Agent Memory作為「Sessions API」記憶部分的參考實作，整合壓縮、記住與搜尋記憶。

**建置應用範例**
Agent Memory適用多種Agent架構：
- **單一Agent記憶**：無論用如「Claude Code」或「OpenCode」的人機迴圈程式撰寫Agent、自架如「OpenClaw」或「Hermes」代理，或管理服務如「Anthropic’s Managed Agents」，皆可無改核心迴圈即作為持久記憶層。
- **自訂Agent harness**：團隊自建Agent基礎設施如背景自主Agent，「Ramp Inspect」為公開範例，「Stripe」與「Spotify」有類似系統，可讓Agent跨會話持久記憶並存活重啟。
- **跨Agent、人與工具共享記憶**：profile不限單Agent，工程團隊可共享，讓一人程式撰寫Agent學得知識（如程式撰寫慣例、架構決策、部落知識）供全員用，避免context修剪遺失或僅存腦中。程式碼審核bot與程式撰寫Agent共享記憶，讓審核回饋形塑未來程式碼生成。Agent累積知識從短暫變持久團隊asset。
雖然搜尋是記憶一部分，但AI Search（跨非結構化/結構化檔案找結果）與Agent Memory（context回憶）解決不同問題，前者為檔案原生，後者源自會話衍生，可互補使用。

**資料所有權承諾**
Agent愈強大嵌入業務，累積記憶愈成珍貴資產，不僅營運狀態，更是耗工建構的機構知識。客戶擔憂綁單供應商提高轉換成本合理。Agent Memory雖管理服務，但資料屬使用者，每記憶皆可匯出，Cloudflare承諾讓Cloudflare上Agent知識可隨需求離開，透過易離開賺取長期信任，並持續建置讓使用者不想離開的產品。

**運作原理**
Agent context生命週期關鍵為壓縮（compaction），harness縮短context避模型限制或context rot，多數Agent永久丟棄資訊，Agent Memory改為保存知識。整合兩途徑：
- **壓縮時大量攝取**：harness壓縮context時，將對話送Agent Memory攝取，從訊息歷史提取事實、事件、指令、任務，與現有記憶去重並儲存為未來檢索記憶。
- **模型直接工具互動**：模型獲工具直接操作記憶，如回憶（特定資訊搜尋）、記住（明確儲存）、忘記（標記不再重要/真實）、列出（檢視儲存內容）。這些輕量操作免模型設計查詢或管儲存，主Agent不浪費context於儲存策略，工具介面刻意受限讓記憶不礙任務。
Agent三大元件：harness驅動模型重複呼叫、促工具呼叫、管理狀態；模型取context回補全；狀態含當前context window與外部如對話歷史、檔案、資料庫、記憶。

**攝取管線細節**
對話抵達經多階段管線提取、驗證、分類、儲存。
- **確定性ID生成**：每訊息獲內容定址ID（SHA-256雜湊session ID、角色、內容，截128位元），重複攝取具冪等性。
- **提取器雙迴圈**：全迴圈大致10K字元分塊、雙訊息重疊、並行最多四塊，每塊產結構化transcript（角色標籤、相對日期轉絕對如「yesterday」成「2026-04-14」、行索引追蹤來源）。長對話（9+訊息）並行細節迴圈，聚焦名稱、價格、版本號、實體屬性，合併結果。
- **驗證**：八項檢查涵蓋實體/物件身分、位置/時間/組織脈絡、完整/關係脈絡、推斷事實是否對話支持，通過/修正/丟棄。
- **分類四類**：
  - Facts：當前原子穩定知識，如「專案用GraphQL」或「使用者偏暗黑模式」。
  - Events：特定時間發生，如部署/決策。
  - Instructions：作法如程序、工作流程、runbooks。
  - Tasks：當前工作，設計短暫。
  Facts/Instructions有規範化主題key，同key新記憶取代舊（非刪），建版本鏈（舊指新）。Tasks排除向量索引但全文字搜尋可發現。
- **儲存**：用INSERT OR IGNORE略過重複，背景非同步向量化，嵌入文字前綴分類時3-5搜尋查詢，橋接宣告寫入（如「使用者偏暗黑模式」）與查詢式搜尋（如「使用者要何主題？」）。取代記憶向量並行刪除。

**檢索管線細節**
查詢經獨立管線，開發發現無單一方法全優，故並行多法融合。
- **第一階段**：並行查詢分析與嵌入，分析產排序主題key、全文字搜尋詞彙同義詞、「HyDE」（假設文件嵌入，宣告式答案陳述）。嵌入原始查詢，下游皆用。
- **第二階段五管道並行**：
  - 全文字搜尋（Porter stemming）：關鍵字精準，知確切詞彙不知脈絡。
  - 確切fact-key查詢：直接對應已知主題key。
  - 原始訊息搜尋：全文字搜尋未分類片段，作為安全網抓提取泛化遺漏逐字細節。
  - 直接向量搜尋：用嵌入查詢找語意相似記憶。
  - HyDE向量搜尋：找類似答案外觀記憶，常補抽象/多跳查詢（問答詞彙異）。
- **第三階段**：用「Reciprocal Rank Fusion (RRF)」合併，每結果依各管道排名加權分數，fact-key最高，全文字/HyDE/直接向量依訊號強度，原始訊息低權重安全網。平手依新近排序。
頂級候選送合成模型產自然語言答案，特定查詢特殊處理如時間計算用regex與算術確定性，非LLM（模型不可靠日期運算）。

**開發歷程**
初始原型輕量（基本提取、向量儲存、簡單檢索），證明概念但不足生產。置入Agent驅動迴圈迭代：跑基準、析缺口、提解方、人審選泛化策略（非過擬合）、Agent改動、重複。挑戰為LLM隨機性（即使溫度零），需多跑平均趨勢分析，避免過擬合基準非真改善。經多基準（LoCoMo、LongMemEval、BEAM）測試，達穩定改善與泛化架構。

**Cloudflare技術棧優勢**
Cloudflare用自家建Agent Memory，強大易組原語讓首原型週末完成，完整生產內部版一月內。核心為Cloudflare Worker協調：
- 「Durable Object」：存原始訊息與分類記憶。
- 「Vectorize」：嵌入記憶向量搜尋。
- 「Workers AI」：跑LLM與嵌入模型。
每記憶context對應獨立Durable Object與Vectorize索引，全隔離易擴展。
- **運算隔離**：每profile獨Durable Object（SQLite背書），強隔離無基礎設施負荷，管FTS索引、取代鏈、交易寫入，getByName()讓任請求直達profile。
- **分層儲存**：記憶內容SQLite DO，向量Vectorize，未來快照/匯出至R2低成本長期存，各原語專屬負載。
- **本地模型推論**：全提取/分類/合成管線跑「Workers AI」部署Cloudflare網路，會話親和header路由profile名，享提示快取。
模型選擇上，Cloudflare指出更大模型非總優，針對結構化任務使用高效模型，並在合成階段利用參數較大的模型來強化自然語言答案，以在成本、品質與延遲之間取得平衡。

**內部應用**
Cloudflare內部用Agent Memory於自家工作流，作為驗證場與idea源。「OpenCode」內部plugin整合開發迴圈，提供跨會話壓縮記憶，更妙為團隊共享profile，讓Agent知團隊其他成員已學知識。

## 標籤

Agent, 記憶系統, 新產品, Cloudflare