# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Ashpreet Bedi (@ashpreetbedi) · 平台：X (Twitter) · 日期：2026-05-12

> 原始來源：https://x.com/ashpreetbedi/status/2053885390717890757

## 中文摘要

自動改善軟體平台透過 Agent 自主建置、執行與優化，實現端到端開發生命週期。

作者 Ashpreet 分享一個專為程式碼 Agent 設計的平台，讓 Agent 自行建立、強化與迭代自身，涵蓋完整開發生命週期，僅需五個提示驅動，取代繁瑣手動流程。

**五個核心提示驅動生命週期**  
平台透過五個提示完整涵蓋 Agent 開發：  
- Create：從頭架構新 Agent。  
- Improve：依規格強化既有 Agent。  
- Extend：為既有 Agent 新增功能。  
- Hill Climb：執行評估套件、診斷失敗並修復範圍內問題。  
- Review：掃描程式庫，檢查文件、程式碼與設定檔的偏差。  
「Improve → Hill Climb」迴圈可遞迴優化 Agent，幾乎無需人工監督，手動操作難以想像。

**全棧控制實現自動優化**  
多數軟體無法自動改善，因為輸入輸出散布各工具，Agent 需跨多個認證與介面拼湊資料，理論可行但實務摩擦過大。  
作者平台專為自動改善設計，例如 Claude 程式碼可讀取 sessions、traces 與 logs 判斷 PASS 或 FAIL，失敗時直接編輯 Agent 並重跑。  
三關鍵要素：  
1. 每項動作皆暴露為 API：執行 Agent、讀取 session、跑評估皆可用 `cURL` 或 `bash` 呼叫。  
2. 資料集中存放：sessions 與 traces 存於 Postgres 資料庫，Agent 不離開環境即可觸發並讀取結果。  
3. 日誌主導一切：平台全用 Docker 本地運行，Agent 讀取即時 logs 進行更新，測試 → 審核迴圈僅需 ~5 秒，日誌即解鎖一切的即時回饋機制。  
Agent 平台是首個動作、資料與迭代工具緊密整合的軟體類型，讓 Agent 端到端測試、改碼、重測，直至改善；託管迴圈的平台即是迴圈首個改善對象。

**1. Create 新 Agent**  
在 Claude Code 中輸入：  
> Run `create-new-agent.md` in a new branch.  
Claude 先詢問 Agent 功能與所需工具，透過 MCP 搜尋 [Agno 文件](https://docs.agno.com) 選取 toolkit，產生 Agent 檔案、註冊至 `app/main.py`、重啟容器，並用 `cURL` 執行 smoke test。全程 5-10 分鐘，從提示到 Agent 上線。  
平台自動化讓作者建置先前不會費力的 Agent，例如總結隔夜 Slack 訊息、草擬週報、標記程式庫重要議題；這些以往難存活多日專案，如今僅需一杯咖啡時間。

**2. Improve 既有 Agent**  
輸入：  
> Run `improve-agent.md` on code-search agent.  
Claude 讀取 Agent 的 INSTRUCTIONS，衍生 8-12 個探測案例，包括 golden-path、邊緣案例、工具選擇，以及對抗性測試如 prompt injections、畸形輸入、偏離目的嘗試。  
逐一透過 `cURL` 對即時容器執行，讀取回應與容器 logs 中的工具呼叫，依 INSTRUCTIONS 承諾判斷 PASS 或 FAIL。  
每個失敗選擇合適槓桿：收緊規則、加規則、更換工具、提升 `num_history_runs` 等；編輯 `agents/<slug>.py`、熱重載、僅重跑失敗探測。迭代上限五輪，早全過即停。  
全程零人工輸入，先前需一天手動點擊，如今全自動。

**3. Extend 擴展 Agent**  
輸入：  
> Run `extend-agent.md` on code-search agent.  
以作者主導描述變更（如加工具、精煉提示、修 bug），Claude 載入 Agno 文件 MCP 確保 toolkit 研究基於真實 API，執行變更、跑 smoke test。每迭代為小而驗證步驟，變更精準隔離測試。

**4. Hill Climb 持續優化**  
累積大量 evals 後，輸入：  
> Run `eval-and-improve.md`.  
執行完整 eval suite，診斷每個失敗並修復範圍內問題：失敗類型對應修復位置，如 INSTRUCTIONS 缺規則、幻覺、錯工具觸發、過度指定 rubric。Claude 選槓桿、編輯、重跑僅失敗案例；全綠後重跑全套件防回歸。  
Eval suite 僅兩檔案：`evals/cases.py` 宣告案例，每案含輸入、rubric（正確回應樣貌）與可選預期工具呼叫，建基於 Agno 的 AgentAsJudgeEval 與 ReliabilityEval。  
Improve 捕捉分布外失敗，Hill Climb 確保分布內案例持續通過，二者互補。

**5. Review 同步程式庫**  
Agent 主導 repo 變動快速，輸入：  
> Run `review-and-improve.md`.  
Claude 掃描全 repo 偏差：磁碟 Agent 檔案須註冊 `app/main.py`、程式碼讀 env var 須列 `example.env` 與 `AGENTS.md`、markdown 文件路徑須存在、腳本須符描述。  
機械偏差自動修復：如重命名檔案、缺 `example.env` 項目、新 Agent 缺架構圖；大問題標記並建議下一步。  
最適合發佈前或重構後，人類視為繁瑣，Agent 讀全檔案輕鬆完成。文件與程式碼偏差一直是生產軟體稅負，如今零成本。

**Agent 平台獨特優勢**  
Agent 平台是此模式的完美試煉場：  
1. Greenfield：新興領域，從一開始設計給程式碼 Agent。  
2. 流程明確：改善 Agent 即跑它、讀 logs、評分回應、編輯、重跑。  
3. 迴圈實用：一般軟體優化 API 端點無意義，Agent 每輪改善真實可測且增值。  
正確設定後，可用 create 從idea到 Agent、improve 強化、extend 加功能、evals 鎖定再 hill-climb、review 同步 repo，手動幾乎不可能。

**開源平台與使用指南**  
作者分享自動改善 Agent 平台：[agent-platform-railway](https://agent-platform-railway)。這是 Docker 本地或 [Railway](https://railway.app) 上運行的 starter codebase，提示檔在 `docs/` 資料夾。複製、設定 10 分鐘內跑 Agent。  
遵循 `README` 完整設定指南，參考 [Agno 文件](https://docs.agno.com)。

**實際運行驚喜與未來願景**  
作者運行數週，持續驚豔：Agent 指示精簡半句、docstring 與程式碼同步、平台每次執行更乾淨。  
預見所有軟體皆如此運作：程式碼 Agent 端到端管理平台，修復以往不值優先的小問題。感謝閱讀！  
Ashpreet  
建置於 Agno。

## 標籤

Agent, 自動化, 新產品, Agentic Workflow