# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Harrison Chase (@hwchase17) · 平台：X (Twitter) · 日期：2026-04-04

> 原始來源：https://x.com/hwchase17/status/2040467997022884194

## 中文摘要

# AI Agent 的持續學習 (Continual learning)

大多數關於 AI 持續學習的討論都集中在一件事上：更新模型權重。但對於 AI Agent 而言，學習可以發生在三個不同的層次：模型 (Model)、框架 (Harness) 和上下文 (Context)。理解這些差異將改變你對建構隨時間改進的系統的思考方式。

Agent 系統的三個主要層次為：

- **Model**：模型權重本身。

- **Harness**：圍繞在模型周圍、驅動所有 Agent 實例的框架。這指的是驅動 Agent 的程式碼，以及任何作為框架一部分的指令或工具。

- **Context**：存在於框架之外，可用於配置框架的額外上下文（指令、技能）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775332659721-iaHFExmQ5asAAkKq9jpg.jpg)

範例 #1：將此對應到像 Claude Code 這樣的程式撰寫 Agent：

- **Model**：claude-sonnet 等

- **Harness**：Claude Code

- **User context**：CLAUDE.md, /skills, mcp.json

範例 #2：將此對應到 OpenClaw：

- **Model**：多種模型

- **Harness**：Pi + 其他一些支撐架構

- **Agent context**：SOUL.md, 來自 clawhub 的技能

當我們談論持續學習時，大多數人會立刻想到模型。但實際上，AI 系統可以在這三個層次上進行學習。

## 模型層次的持續學習

當大多數人談論持續學習時，他們最常指的就是：更新模型權重。

更新模型的技術包括 SFT、RL（例如 GRPO）等。

這裡的一個核心挑戰是「災難性遺忘」(catastrophic forgetting) —— 當模型在新的資料或任務上進行更新時，它往往會在先前已知的任務上表現退化。這是一個尚未解決的研究問題。

當人們為特定的 Agent 系統訓練模型時（例如，你可以將 OpenAI 的 codex 模型視為專為其 Codex Agent 訓練的），他們大多是針對整個 Agent 系統進行訓練。理論上，你可以在更細緻的層級上進行（例如，每個使用者一個 LORA），但在實務上，這通常是在 Agent 層級完成的。

## 框架層次的持續學習

如前所述，框架 (Harness) 指的是驅動 Agent 的程式碼，以及任何作為框架一部分的指令或工具。

隨著框架變得越來越流行，已經有幾篇論文討論如何優化框架。

最近的一篇是 **Meta-Harness: End-to-End (端到端) Optimization of Model Harnesses**。

其核心概念是 Agent 在迴圈中執行。你首先讓它執行一系列任務，然後進行評估。接著將所有這些日誌 (logs) 儲存到檔案系統中。然後，運行一個程式撰寫 Agent 來查看這些追蹤紀錄 (traces)，並建議對框架程式碼進行修改。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775332659682-iaHFEx20FbcAAmSmjjpg.jpg)

與模型的持續學習類似，這通常是在 Agent 層級完成的。理論上，你可以在更細緻的層級上進行（例如，為每個使用者學習不同的程式碼框架）。

## 上下文層次的持續學習

「Context」位於框架之外，可用於配置框架。Context 由指令、技能甚至工具等內容組成。這通常也被稱為記憶 (memory)。

這種類型的 Context 也存在於框架內部（例如，框架可能具有基礎系統提示詞、技能）。區別在於它是框架的一部分，還是配置的一部分。

學習 Context 可以在幾個不同的層級上完成。

學習 Context 可以在 **Agent 層級**完成 —— Agent 擁有持久的「記憶」，並隨時間更新其自身的配置。一個很好的例子是 OpenClaw，它擁有自己的 SOUL.md，會隨時間更新。

學習 Context 更常見於 **租戶層級 (tenant level)**（使用者、組織、團隊等）。在這種情況下，每個租戶都會獲得隨時間更新的專屬 Context。例子包括 Hex 的 Context Studio、Decagon 的 Duet、Sierra 的 Explorer。

你也可以混合搭配！因此，你可以擁有一個同時具備 Agent 層級 Context 更新、使用者層級 Context 更新以及組織層級 Context 更新的 Agent。

這些更新可以透過兩種方式完成：

- **事後離線作業**：與框架更新類似 —— 執行一系列最近的追蹤紀錄，以提取洞察並更新 Context。這就是 OpenClaw 所稱的「做夢」(dreaming)。

- **Agent 運行時的熱路徑 (hot path)**：Agent 可以決定（或者使用者可以提示它）在執行核心任務時更新其記憶。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775332659713-iaHFEx7TUbIAAhZtIjpg.jpg)

這裡需要考慮的另一個維度是記憶更新的明確程度。是使用者提示 Agent 去記憶，還是 Agent 根據框架本身的核心指令進行記憶？

## 比較

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775332659717-iaHFExSYwaYAIXI9bjpg.jpg)

## 追蹤紀錄 (Traces) 是核心

所有這些流程都由追蹤紀錄 (traces) 驅動 —— 即 Agent 所做之事的完整執行路徑。LangSmith 是我們的平台，它（除其他功能外）有助於收集這些追蹤紀錄。

你可以透過多種不同的方式使用這些追蹤紀錄。

如果你想更新模型，可以收集追蹤紀錄，然後與像 Prime Intellect 這樣的團隊合作來訓練你自己的模型。

如果你想改進框架，可以使用 LangSmith CLI 和 LangSmith Skills，讓程式撰寫 Agent 存取這些追蹤紀錄。這種模式正是我們在 terminal bench 上改進 Deep Agents（我們開源、模型無關、通用型的基礎框架）的方式。

如果你想隨時間學習 Context（無論是在 Agent、使用者還是組織層級）—— 那麼你的 Agent 框架需要支援這一點。Deep Agents（我們首選的框架）以適合生產環境的方式支援這一點。請參閱該處的文件，了解如何進行使用者層級記憶、背景學習等的範例。

感謝 @sydneyrunkle @Vtrivedy10 @nfcampos 對本文的審閱與意見回饋。

## 標籤

Agent, 教學資源, AI Agent
