# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Alok Bishoyi (@alokbishoyi97) · 平台：X (Twitter) · 日期：2026-05-28

> 原始來源：https://x.com/alokbishoyi97/status/2059610305408462898

## 中文摘要

# 使用 Autoresearch 改進 harness 的 skill（附詳細執行範例）

##

## 自我改進的 Agent 時代已經來臨

目前人工智慧領域最有趣的轉變，在於 Agent 現在能夠自我改進了。你只需將它指向一個問題，讓它獨自運作，回來時你會發現它已經針對自身的行為進行了實驗，保留了有效的部分，捨棄了無效的部分，並產出了一個在你在意的任務上得分顯著提升的自我版本。底層模型從未改變，改變的是包覆在它外層的機制。

## 真正改變的是什麼

被優化的對象是你與模型之間的這一層。現在大多數的 Agent harness 都會將部分能力公開為一種 Skill。Skill 是一個 Markdown 檔案，包含簡短的描述（說明此 Skill 何時適用）以及主體內容（當 Skill 被載入時，Agent 應該執行什麼動作）。

Claude Code 有 Skills，Codex 也有，Cursor 也公開了類似的介面，OpenClaw 和其他少數幾個 harness 也是如此。雖然實作細節各異，但核心概念是一樣的：Agent 針對某類任務的處理程序就是一個純文字的 Markdown 檔案。任何人——包括另一個 Agent——都可以讀取、編輯並發布新版本。

這就是讓自我改進變得可行的地方。參數空間不再是模型權重（那需要訓練過程、GPU 叢集和標記過的資料集），在這種情況下，參數空間就是 Markdown。LLM 可以撰寫 Markdown，另一個 LLM 則可以為其評分。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779937517899-iaHJUmpi1acAAebfBjpg.jpg)

我們在下方的執行範例中使用了 Claude Code harness 和 Claude Skills，但這種方法並不侷限於 Claude。將同樣的迴圈指向 Codex 的 skill 或 Cursor 的 Agent 定義，你也會得到同樣的結果。

## 什麼是 evo

evo 就是那個迴圈。

你給它一個程式庫、對「更好」的定義，以及預算。它會建立一個基準測試（或使用你現有的），針對該改進什麼產生假設，在各自獨立的 workspace 中執行每個假設，為結果評分，並保留一個嘗試的樹狀結構。

得分較高的分支會被擴展，得分較低的分支則會被剪枝。稽核員會檢查每個被採納的變更是否有作弊行為——驗證優化器沒有將測試答案偷偷塞進參數檔案中。

有三件事讓 evo 不同於 autoresearch 實作中常見的單一貪婪爬山演算法（greedy hill-climb）：

- **平行探索**：多個 Agent 同時執行，每個都在自己的沙盒中，各自嘗試不同的假設。它們不需要排隊等待。
- **樹狀搜尋，而非線性搜尋**：evo 不僅僅保留單一最高分的分支。它會保留在任務不同切片中勝出的分支——專家與通才並存。當這些專家分支可以合併時，結果通常比單一父分支更好。
- **閘門（gates）**：任何你可以編寫的通過/失敗檢查（回歸測試、保留的測試切片、防作弊稽核）都是一個閘門。即使某個實驗的得分是目前為止最高的，只要它沒通過閘門，就會被捨棄。沒有閘門的話，優化迴圈就會找到鑽指標漏洞的方法。

evo 是開源的。我們自己也在使用。它同時也是我們即將推出的 autoresearch 平台底層引擎（詳情見下文）。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779937517902-iaHJUpZvBagAAri1ujpg.jpg)

## 如何使用 evo

設定只需兩個指令：

```bash
uv tool install evo-hq-cli  # 優化器
evo install claude-code # 將它們串接起來
```

這就是完整的安裝過程。你可以將 `claude-code` 替換為 Codex、Cursor、OpenClaw、Hermes、pi 或任何你已經在使用的 host。

接著用兩個指令來執行迴圈：

`/evo:discover`：這是單次設定。你將它指向一個程式庫並告訴它你想要改進什麼。它會探索該 repo、找出基準測試（如果沒有則會建立一個）、提出優化目標，並註冊每個實驗都必須執行的閘門。

`/evo:optimize`：這是迴圈本身。它負責編排平行執行的 Agent、設定每個 Agent 的預算，以及停止條件（通常是：當連續 N 輪都沒有改進時停止）。

從使用者的角度來看，這就完成了。儀表板會隨著實驗完成而串流顯示分數與追蹤紀錄。你可以讓它執行一小時或一週。完成後，你會得到得分最高的參數檔案（Skill、prompt、設定檔，或是任何目標對象），以及它所嘗試過的每個假設的完整紀錄。

它適用於 Claude Code、Codex、Cursor、OpenClaw 和其他幾個工具。預設在本地執行；如果你想在不耗盡筆電效能的情況下平行執行實驗，也可以切換到雲端沙盒供應商。

## 我們做了什麼

為了讓這件事更具體，我們將 evo 指向一個高難度基準測試（SealQA）並讓它執行。目標是一組包含 20 個事實搜尋問題的公開集，這些問題的明顯搜尋結果往往互相矛盾，且正確答案需要一些推理才能提取出來。這類問題通常會讓一般的 Agent 自信地給出錯誤答案：「哪個最近加入歐盟且與俄羅斯接壤的國家？」——這個聯合條件會讓大多數單次搜尋（single-shot search）失敗。「目前有多少座活火山正在噴發？」——答案取決於你指的是今天、這個月還是今年，而頂尖來源的說法也不一致。

基準：使用網頁搜尋的 Claude Code，沒有自訂 Skills。答對 5/20 題。

我們讓 evo 在 `.claude/skills/` 目錄中自由發揮。50 次實驗後，最終狀態：一個 145 行的 Skill 檔案，包含五個觸發閘門的子協定，每個協定對應 evo 發現 Agent 系統性答錯的題目類型。

分數：11/20。得分提升超過兩倍。

底層模型沒有改變。是這個迴圈產生了這個外層包裝。

## 為什麼這很重要

以下是我們如何建立 Agent 系統槓桿的模型：

> 模型能力 × 優質 harness × 嚴謹的驗證迴圈

直到最近，只有第一個因素在穩定地進步。新模型，新行為。現在，後兩個因素也在進步。而且它們是在你控制的時間表上、針對你定義的目標、在任何人都可以更新的參數空間中進行。這些都是針對你的基準測試、在你的資料集上進行優化的。

這就是我說 AI 的「4 分鐘跑完 1 英里」時刻已經到來的原因。突破點不在於更大的模型，而在於我們現有模型周圍更緊密的迴圈。

我們正在建立 evo 平台，讓任何人都能使用這個迴圈，而不僅僅是那些能自行建立編排系統的團隊。

你定義什麼對你的 AI 來說是「更好」。你將平台指向你的 repo、你的 Agent 堆疊或你的 Skills 目錄。它會建立 harness、平行執行實驗、誠實地評分，並回傳得分最高的版本，以及它是如何達到該結果的完整稽核軌跡。

更長遠的目標是持續調校。使用者其實不想要一次性的 autoresearch 執行——他們希望當問題發生偏移、模型更新、出現新的失敗模式時，系統能保持在最佳狀態。目標是讓迴圈 24/7 運作，監控基準測試並保持設定為最新。系統、程式碼、Agent、Skills、模型——任何對「更好」有定義的事物皆是如此。

SealQA 執行的完整紀錄——包括每次實驗、最終的 Skill、evo 嘗試過的每個假設、即時儀表板——都在[這裡](https://evo.dev)。如果你想讓這個迴圈在你的專案上運作，註冊方式也在那裡。

## 標籤

Skills, Agent, 教學資源, 自動化, Harness
