# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Parth Asawa (@pgasawa) · 平台：X (Twitter) · 日期：2026-05-05

> 原始來源：https://x.com/pgasawa/status/2051361012838957144

## 中文摘要

Continual Learning Bench 1.0 發布，首個評估 AI 系統在線上持續學習的真實基準。

**發布背景與核心創新**  
Continual Learning Bench 1.0 於 2026 年 5 月 4 日發布，由 UC Berkeley、UW-Madison 與 Snorkel AI 的團隊開發。這是首個針對真實世界情境的持續學習基準，挑戰現有基準假設模型無狀態、任務獨立的問題。部署的 AI 系統應從經驗中學習並改善，但當前基準忽略此點，導致無法測量真實適應能力。

**基準設計原則**  
基準聚焦有序任務序列，任務間非獨立，前一任務資訊有助後續表現，系統預期在評估中改變自身。設計非瑣碎，強調：  
- 任務具潛在結構可學習  
- 透過經驗改善表現  
- 無法僅靠離線訓練解決  
無法簡單串聯標準基準如 ARC-AGI，團隊與領域專家驗證任務真實性與可學習性。初始效能須留改善空間，即使前沿模型也無法完美，確保測量持續進步而非原始能力。

**任務領域與範例**  
初始釋出版本涵蓋軟體工程、資料科學、策略建模等真實領域任務序列，皆經專家審核。目標非測試原始模型能力，而是驗證系統能否線上適應任務特定結構，超越訓練資料通用能力。  
**Codebase Adaptation 範例**：系統在共享程式庫中解決一系列問題，相關問題觸及相同程式碼區塊，持續學習系統應建構程式庫理解，提升效率。效率以 bash 互動次數測量，錯誤解有最大懲罰。大多數系統難以超越無狀態基線。

**評估指標創新**  
引入「gain」指標區分學習與原始能力：  
- 比較系統與其無狀態版本  
- 測量真正從經驗獲益程度  
強模型無學習 ≈ 零 gain；弱模型改善 → 正 gain。其他指標包括累積獎勵與成本，透過多輪滾動平均減低噪音。單純脈絡學習（附加歷史）竟是最強基線之一，無需明確學習演算法即見改善，但仍有大量改善空間。

**實作與技術架構**  
基準需 Python 3.13+、uv 與 Docker。快速啟動：  
```
git clone https://github.com/pgasawa/continual-learning-bench && cd continual-learning-bench
uv sync --all-extras && source .venv/bin/activate
pre-commit install
clbench setup --all
```
CLI 指令如 `clbench run exploitable_poker --schedule quick_test --system icl` 執行基準。核心元件：  
- **任務資料集**：位於 `src/tasks/`，含可學習結構實例、評估腳本與排程。  
- **系統**：位於 `src/systems/`，內建基線與模型代理，可新增記憶、檢索、提示或工具策略。  
- **harness**：連接系統與任務環境，管理多回合滾動、記錄追蹤並產生分析文物。

**任務開發介面**  
貢獻任務使用 CLI 生成骨架：`clbench init task my_task`，產生 `src/tasks/my_task/` 目錄。任務繼承 `ContinualLearningTask`，註冊 `@register_task("my_task")`，實作 4 個必要方法與 name 屬性：  
- `build_canonical_run_state()`：建構確定性實例序列 `self.instances`，重置運行狀態，使用 `random.Random(self.seed)` 確保可重現。  
- `build_current_query()` → `Query`：產生首個自然語言提示，含 Pydantic 回應綱要、instance_id/index 與中繼資料。  
- `step(response: Response)` → `TaskStepResult`：核心迴圈，處理回應、更新狀態、附加 `InstanceOutcome`，決定實例邊界（`instance_complete`），建構下個查詢或結束（`done=True`）。  
- `evaluate()` → `TaskResult`：計算指標如損失曲線、最佳/實際效能與摘要，使用 `standard_evaluate` 簡化平均獎勵。  
建構子接受 `num_instances`、`seed` 與變體參數；類別定義 `r_max`（預設排程平均每實例最大獎勵）。排程至少含 `schedules/default.json` 與 `quick_test`。

**驗證與控制流程**  
驗證指令：`clbench validate task my_task`（結構檢查）、`clbench smoke my_task --system icl`（互動接線）。流程：`task.reset()` 呼叫 `build_canonical_run_state()`、`select_run_instances()`、`build_current_query()`；迴圈為 `system.respond(query)` → `task.step(response)` → `system.observe(observation, next_query)`；`step()` 結束後呼叫 `evaluate()`。

**社區貢獻與激勵**  
1.0 版積極尋求貢獻：新系統（尤參數學習）、新任務領域。合格任務貢獻者可為未來頂級 ML 會議論文作者，建議先在 Discord 討論範圍、評估設計與署名。聯絡：Parth Asawa (pgasawa@berkeley.edu)。資源：  
📝 部落格：https://continual-learning-bench.com/news/cl-bench-1-0/  
📊 網站：https://continual-learning-bench.com  
💻 程式碼：https://github.com/pgasawa/continual-learning-bench  
💬 Discord：https://discord.gg/7bxjNdfbfH  
貢獻文件：https://continual-learning-bench.com/docs/contributing-tasks/

**未來路線圖**  
基準將持續演進：  
- 延長任務序列視野  
- 新增參數持續學習方法結果  
- 擴展更多領域與垂直應用  
- 改善非易驗證領域模擬  
- 釋出輕量版簡化開發  
- 整合終端任務至 Harbor 等框架  
- 新增 Docker 容器雲端支援（如 Claude Code、Codex）  
此基準邁向評估部署後改善的系統，而非僅訓練前表現，測試 10+ 前沿系統顯示大量頭室，呼應真實 Agent 挑戰。

**領域專家參與與人類基準**  
與 Snorkel AI 合作研究人類效能基線，確認任務可學習性。專家審核確保真實性，如撲克對手策略或使用者偏好等隱藏結構，提供學習訊號。任務須讓人類也隨實例改善，避免過度雜訊。

**關鍵發現與啟示**  
簡單脈絡學習（僅附加歷史）勝過許多系統，證明經驗調節即有效，但多數前沿系統難以改善，凸顯持續學習頭室。基準非測靜態模型能力，而是適應真實狀態環境，挑戰既有評估範式。完整技術報告即將發布，包含詳細分析。

**引用與社群參與**  
引用格式：  
```
@misc{clbench2026,
      title={Continual Learning Bench},
      author={Parth Asawa and Chris Glaze and Gabe Orlanski and Ramya Ramakrishnan and Benji Xu and Asim Biswal and Vincent Sunn Chen and Frederic Sala and Matei Zaharia and Joseph E. Gonzalez},
      year={2026},
}
```
歡迎在 Discord 討論任務構想，團隊期待社群建構更強系統，推動 Agent 在長視野環境持續進步。

## 標籤

Benchmark, 研究論文, 新產品, UC Berkeley, UW-Madison, Snorkel AI