auto-harness:具備自動評估功能的自我優化 Agent 系統(已開源!)
auto-harness:具備自動評估功能的自我優化 Agent 系統(已開源!)
連接您的 Agent,讓它在週末期間自行運作。我們剛剛開源了我們的 auto-harness——這是一個自我優化的迴圈,能找出 Agent 的失敗之處,將其轉化為評估項目,並自動修復它們。全程皆為自主進行。
我們收到了許多人的回饋,他們希望能將這個自我優化迴圈應用在自己的 Agent 上。因此,我們開源了我們的設定。
我們在 Tau3 基準測試任務中展示了我們的 auto-agent harness 優化系統,Agent 的分數從 0.56 提升至 0.78(約 40% 的成長),同時挖掘失敗案例並自動維護即時評估。

瓶頸已經轉移了。現在的問題不再是撰寫程式碼,而是之後的一切:驗證行為、捕捉回歸錯誤、除錯失敗案例,以及隨著系統演進與使用者行為漂移,維護評估機制與可靠性。
工程的新時代將是設計能夠隨時間自我維持與優化的系統。這包括建立定義 Agent 如何運作的穩健 harness、持續衡量行為的評估層、限制系統輸出的約束條件,以及將失敗轉化為可執行訊號的回饋迴圈。
自我優化迴圈:
一個隨著 Agent 經驗與回饋即時改進的飛輪。
從生產環境的追蹤紀錄中挖掘失敗案例
根據根本原因進行分群,並產生評估追蹤候選項目
將失敗群組轉換為可重複使用的即時評估案例
在測試環境中自主提出並驗證 harness 的變更
僅接受那些既能提升效能,又不會導致先前已修復之失敗案例發生回歸的變更
這對真實生產系統意味著什麼:
在每次迭代中,Agent 會探索多個候選方案,並從失敗的實驗迭代中自我恢復。其結果是一個比人類更快速、更可靠地演進的 Agentic harness,它利用了更多的 context、執行了更多的實驗,並以平行方式進行探索。
失敗被視為重複出現的模式,而非孤立的事件。高影響力的失敗模式會被系統性地識別、排序並推動解決,從而實現系統行為持續且可衡量的改進。
評估集並非靜態的,它會隨著系統演進。回歸測試集會隨著每個已解決的失敗群組而擴大,並貢獻新的案例。修復方案會變成經過測試的約束條件,使未來的改進變得更困難,但也更可靠。
自我優化將可靠性從手動除錯迴圈轉變為自動化改進流程,節省了維護複雜、真實世界 Agent 系統的大量工程時間。
我們從這次實驗中學到的經驗:
分群失敗案例是關鍵:根據建議的修復方案將失敗分組,能強迫您攻擊根本原因,而非孤立地處理每個症狀。這也能防止優化器對個別案例過度擬合(overfitting)——一個能解決整個群組的修復方案具有通用性。
Sub-agent 與遞迴摘要有助於管理 context:冗長的追蹤紀錄會迅速淹沒主 Agent 的 context。Sub-agent 擁有自己的輸出,而父層級僅能看到摘要。這有助於在長時間運行的任務中管理過於龐大的 context。
回歸閘道(regression gate)是實現累積收益的關鍵:已修復的失敗會成為永久的測試案例。系統無法倒退回已解決的問題。沒有這個閘道,您就只是在迴圈中進行優化——不斷重複走過相同的路。有了它,每一次改進都是累加的,標準只會往一個方向前進。
人類指令至關重要:透過指令、偏見規則、針對優化的 playbook、工具與技能來收緊迴圈框架是最重要的。元層(meta-layer)才是真正發揮槓桿作用的地方。
開源 auto-harness 函式庫:
我們發布了我們設定的簡化版本,供大家嘗試與實驗!
將它指向您的 Agent,讓它自行運作,回來後您將得到一個更好的 Agent 與評估機制。 https://github.com/neosigmaai/auto-harness
| `agent/agent.py` | 正在被優化的 Agent(OpenAI Agents SDK 範本) |
| `benchmark.py` | 執行您的基準測試,回傳每個任務的獎勵 |
| `gating.py` | 兩階段閘道:評估套件通過率 + 完整的 `val_score` |
| `record.py` | 將迭代結果附加到 `workspace/results.tsv` |
| `workspace/suite.json` | 回歸測試套件 — 由 coding agent 維護,而非您手動維護 |
| `workspace/learnings.md` | 持續性日誌:哪些有效、哪些無效、Agent 需要您提供什麼 |
| `PROGRAM.md` | coding agent 遵循的指令 — 您在此引導迴圈 |
觀看我們的系統即時執行 Agent harness 的演進!
在 NeoSigma,我們正在塑造這個未來。我們正在建立基礎設施以支援真實世界系統中的回饋迴圈,協助團隊捕捉失敗、將其轉換為結構化的評估訊號,並利用這些訊號推動 Agent 行為的持續改進。
完整部落格文章請見:neosigma.ai/blog/self-improving-agentic-systems
開源函式庫:https://github.com/neosigmaai/auto-harness
如果您正在部署 Agent 系統,並希望更快地在真實生產系統中關閉回饋迴圈,我們非常樂意與您交流。加入候補名單以獲取存取權限:https://www.neosigma.ai/waitlist
