AI Agent 的持續學習 (Continual learning)
AI 語音朗讀 · Edge TTS
AI Agent 的持續學習 (Continual learning)
大多數關於 AI 持續學習的討論都集中在一件事上:更新模型權重。但對於 AI Agent 而言,學習可以發生在三個不同的層次:模型 (Model)、框架 (Harness) 和上下文 (Context)。理解這些差異將改變你對建構隨時間改進的系統的思考方式。
Agent 系統的三個主要層次為:
Model:模型權重本身。
Harness:圍繞在模型周圍、驅動所有 Agent 實例的框架。這指的是驅動 Agent 的程式碼,以及任何作為框架一部分的指令或工具。
Context:存在於框架之外,可用於配置框架的額外上下文(指令、技能)。

範例 #1:將此對應到像 Claude Code 這樣的程式撰寫 Agent:
Model:claude-sonnet 等
Harness:Claude Code
User context:CLAUDE.md, /skills, mcp.json
範例 #2:將此對應到 OpenClaw:
Model:多種模型
Harness:Pi + 其他一些支撐架構
Agent context:SOUL.md, 來自 clawhub 的技能
當我們談論持續學習時,大多數人會立刻想到模型。但實際上,AI 系統可以在這三個層次上進行學習。
模型層次的持續學習
當大多數人談論持續學習時,他們最常指的就是:更新模型權重。
更新模型的技術包括 SFT、RL(例如 GRPO)等。
這裡的一個核心挑戰是「災難性遺忘」(catastrophic forgetting) —— 當模型在新的資料或任務上進行更新時,它往往會在先前已知的任務上表現退化。這是一個尚未解決的研究問題。
當人們為特定的 Agent 系統訓練模型時(例如,你可以將 OpenAI 的 codex 模型視為專為其 Codex Agent 訓練的),他們大多是針對整個 Agent 系統進行訓練。理論上,你可以在更細緻的層級上進行(例如,每個使用者一個 LORA),但在實務上,這通常是在 Agent 層級完成的。
框架層次的持續學習
如前所述,框架 (Harness) 指的是驅動 Agent 的程式碼,以及任何作為框架一部分的指令或工具。
隨著框架變得越來越流行,已經有幾篇論文討論如何優化框架。
最近的一篇是 Meta-Harness: End-to-End (端到端) Optimization of Model Harnesses。
其核心概念是 Agent 在迴圈中執行。你首先讓它執行一系列任務,然後進行評估。接著將所有這些日誌 (logs) 儲存到檔案系統中。然後,運行一個程式撰寫 Agent 來查看這些追蹤紀錄 (traces),並建議對框架程式碼進行修改。

與模型的持續學習類似,這通常是在 Agent 層級完成的。理論上,你可以在更細緻的層級上進行(例如,為每個使用者學習不同的程式碼框架)。
上下文層次的持續學習
「Context」位於框架之外,可用於配置框架。Context 由指令、技能甚至工具等內容組成。這通常也被稱為記憶 (memory)。
這種類型的 Context 也存在於框架內部(例如,框架可能具有基礎系統提示詞、技能)。區別在於它是框架的一部分,還是配置的一部分。
學習 Context 可以在幾個不同的層級上完成。
學習 Context 可以在 Agent 層級完成 —— Agent 擁有持久的「記憶」,並隨時間更新其自身的配置。一個很好的例子是 OpenClaw,它擁有自己的 SOUL.md,會隨時間更新。
學習 Context 更常見於 租戶層級 (tenant level)(使用者、組織、團隊等)。在這種情況下,每個租戶都會獲得隨時間更新的專屬 Context。例子包括 Hex 的 Context Studio、Decagon 的 Duet、Sierra 的 Explorer。
你也可以混合搭配!因此,你可以擁有一個同時具備 Agent 層級 Context 更新、使用者層級 Context 更新以及組織層級 Context 更新的 Agent。
這些更新可以透過兩種方式完成:
事後離線作業:與框架更新類似 —— 執行一系列最近的追蹤紀錄,以提取洞察並更新 Context。這就是 OpenClaw 所稱的「做夢」(dreaming)。
Agent 運行時的熱路徑 (hot path):Agent 可以決定(或者使用者可以提示它)在執行核心任務時更新其記憶。

這裡需要考慮的另一個維度是記憶更新的明確程度。是使用者提示 Agent 去記憶,還是 Agent 根據框架本身的核心指令進行記憶?
比較

追蹤紀錄 (Traces) 是核心
所有這些流程都由追蹤紀錄 (traces) 驅動 —— 即 Agent 所做之事的完整執行路徑。LangSmith 是我們的平台,它(除其他功能外)有助於收集這些追蹤紀錄。
你可以透過多種不同的方式使用這些追蹤紀錄。
如果你想更新模型,可以收集追蹤紀錄,然後與像 Prime Intellect 這樣的團隊合作來訓練你自己的模型。
如果你想改進框架,可以使用 LangSmith CLI 和 LangSmith Skills,讓程式撰寫 Agent 存取這些追蹤紀錄。這種模式正是我們在 terminal bench 上改進 Deep Agents(我們開源、模型無關、通用型的基礎框架)的方式。
如果你想隨時間學習 Context(無論是在 Agent、使用者還是組織層級)—— 那麼你的 Agent 框架需要支援這一點。Deep Agents(我們首選的框架)以適合生產環境的方式支援這一點。請參閱該處的文件,了解如何進行使用者層級記憶、背景學習等的範例。
感謝 @sydneyrunkle @Vtrivedy10 @nfcampos 對本文的審閱與意見回饋。
