# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Gauri Gupta (@gauri__gupta) · 平台：X (Twitter) · 日期：2026-04-04

> 原始來源：https://x.com/gauri__gupta/status/2040251170099524025

## 中文摘要

# auto-harness：具備自動評估功能的自我優化 Agent 系統（已開源！）

連接您的 Agent，讓它在週末期間自行運作。我們剛剛開源了我們的 auto-harness——這是一個自我優化的迴圈，能找出 Agent 的失敗之處，將其轉化為評估項目，並自動修復它們。全程皆為自主進行。

我們收到了許多人的回饋，他們希望能將這個自我優化迴圈應用在自己的 Agent 上。因此，我們開源了我們的設定。

我們在 Tau3 基準測試任務中展示了我們的 auto-agent harness 優化系統，Agent 的分數從 0.56 提升至 0.78（約 40% 的成長），同時挖掘失敗案例並自動維護即時評估。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1775303897747-iaHFBUdiKbYAAcBlcpng.png)

> 瓶頸已經轉移了。現在的問題不再是撰寫程式碼，而是之後的一切：驗證行為、捕捉回歸錯誤、除錯失敗案例，以及隨著系統演進與使用者行為漂移，維護評估機制與可靠性。

工程的新時代將是設計能夠隨時間自我維持與優化的系統。這包括建立定義 Agent 如何運作的穩健 harness、持續衡量行為的評估層、限制系統輸出的約束條件，以及將失敗轉化為可執行訊號的回饋迴圈。

## 
自我優化迴圈：

一個隨著 Agent 經驗與回饋即時改進的飛輪。

- 從生產環境的追蹤紀錄中挖掘失敗案例

- 根據根本原因進行分群，並產生評估追蹤候選項目

- 將失敗群組轉換為可重複使用的即時評估案例

- 在測試環境中自主提出並驗證 harness 的變更

- 僅接受那些既能提升效能，又不會導致先前已修復之失敗案例發生回歸的變更

## 這對真實生產系統意味著什麼：

- 在每次迭代中，Agent 會探索多個候選方案，並從失敗的實驗迭代中自我恢復。其結果是一個比人類更快速、更可靠地演進的 Agentic harness，它利用了更多的 context、執行了更多的實驗，並以平行方式進行探索。

- 失敗被視為重複出現的模式，而非孤立的事件。高影響力的失敗模式會被系統性地識別、排序並推動解決，從而實現系統行為持續且可衡量的改進。

- 評估集並非靜態的，它會隨著系統演進。回歸測試集會隨著每個已解決的失敗群組而擴大，並貢獻新的案例。修復方案會變成經過測試的約束條件，使未來的改進變得更困難，但也更可靠。

自我優化將可靠性從手動除錯迴圈轉變為自動化改進流程，節省了維護複雜、真實世界 Agent 系統的大量工程時間。

## 

## 我們從這次實驗中學到的經驗：

1. 分群失敗案例是關鍵：根據建議的修復方案將失敗分組，能強迫您攻擊根本原因，而非孤立地處理每個症狀。這也能防止優化器對個別案例過度擬合（overfitting）——一個能解決整個群組的修復方案具有通用性。

1. Sub-agent 與遞迴摘要有助於管理 context：冗長的追蹤紀錄會迅速淹沒主 Agent 的 context。Sub-agent 擁有自己的輸出，而父層級僅能看到摘要。這有助於在長時間運行的任務中管理過於龐大的 context。

1. 回歸閘道（regression gate）是實現累積收益的關鍵：已修復的失敗會成為永久的測試案例。系統無法倒退回已解決的問題。沒有這個閘道，您就只是在迴圈中進行優化——不斷重複走過相同的路。有了它，每一次改進都是累加的，標準只會往一個方向前進。

1. 人類指令至關重要：透過指令、偏見規則、針對優化的 playbook、工具與技能來收緊迴圈框架是最重要的。元層（meta-layer）才是真正發揮槓桿作用的地方。

## 開源 auto-harness 函式庫：

我們發布了我們設定的簡化版本，供大家嘗試與實驗！
將它指向您的 Agent，讓它自行運作，回來後您將得到一個更好的 Agent 與評估機制。 https://github.com/neosigmaai/auto-harness

```bash
| `agent/agent.py` | 正在被優化的 Agent（OpenAI Agents SDK 範本） |
| `benchmark.py` | 執行您的基準測試，回傳每個任務的獎勵 |
| `gating.py` | 兩階段閘道：評估套件通過率 + 完整的 `val_score` |
| `record.py` | 將迭代結果附加到 `workspace/results.tsv` |
| `workspace/suite.json` | 回歸測試套件 — 由 coding agent 維護，而非您手動維護 |
| `workspace/learnings.md` | 持續性日誌：哪些有效、哪些無效、Agent 需要您提供什麼 |
| `PROGRAM.md` | coding agent 遵循的指令 — 您在此引導迴圈 |
```

觀看我們的系統即時執行 Agent harness 的演進！

> 在 NeoSigma，我們正在塑造這個未來。我們正在建立基礎設施以支援真實世界系統中的回饋迴圈，協助團隊捕捉失敗、將其轉換為結構化的評估訊號，並利用這些訊號推動 Agent 行為的持續改進。

完整部落格文章請見：neosigma.ai/blog/self-improving-agentic-systems
開源函式庫：https://github.com/neosigmaai/auto-harness

如果您正在部署 Agent 系統，並希望更快地在真實生產系統中關閉回饋迴圈，我們非常樂意與您交流。加入候補名單以獲取存取權限：https://www.neosigma.ai/waitlist

## 標籤

Agent, 開源專案, Benchmark, auto-harness
