← 返回首頁
Anthropic
Anthropic
@AnthropicAI
1,290🔁 157
𝕏 (Twitter)🔥🔥🔥🔥🔥
AI 中文摘要Claude 生成

多Agent架構突破Claude在設計與自主程式開發上的瓶頸

Anthropic Labs團隊成員Prithvi Rajasekaran在最新工程部落格中分享,透過受生成對抗網路(GAN)啟發的多Agent架構,突破了既往單一Agent方法在前端設計品質和長時間自主軟體工程上的天花板。該方法結合生成器與評估器Agent,配合精心設計的handoff機制,使Claude能在長達數小時的自主程式設計會話中產出完整的全端應用程式。

單一Agent方法的核心問題

長時間自主程式設計任務中,Agent出現兩個持久性失敗模式:

  • Context焦慮與失連問題:隨著context窗口填滿,Claude Sonnet 4.5會過早結束工作,誤認為接近context限制。簡單的內容壓縮(compaction)無法解決此問題,須透過context重置搭配結構化的狀態handoff——新Agent獲得前一Agent的完整狀態與下一步指示——才能提供乾淨的起點並維持連貫性。

  • 自我評估的樂觀偏差:當要求自我評估時,Agent傾向於自信地讚揚自己的成果,即便人類觀察者明顯看出品質平庸。這問題在設計等主觀任務上特別嚴重,因為缺乏軟體測試般的二元驗證。將執行工作的Agent與評估工作的Agent分離,能有效解決此問題。

前端設計的突破:將主觀品質量化

Rajasekaran先從前端設計實驗著手,建立了四項評分標準,同時供應給生成器與評估器Agent:

  • 設計品質:顏色、排版、佈局、影像等細節是否相互融合產生獨特氛圍與品牌感,而非零散組件的拼湊
  • 原創性:是否具有自訂決策,或僅是範本佈局、程式庫預設與AI生成模式;須避免未修改的庫存元件或典型AI生成特徵(如紫色漸層搭白卡片)
  • 工藝:排版層級、間距一致性、色彩調和、對比率等技術執行力
  • 功能性:獨立於美學的可用性

該架構刻意對設計品質與原創性給予更大權重,因為Claude在工藝與功能上本已表現優異,但在設計與原創性上常產出平凡輸出。評估器透過少樣本範例與詳細分數拆解進行校準,確保評估標準與預期一致。

生成器在Claude Agent SDK上運行,評估器透過Playwright MCP與實時頁面互動——在評分前主動導航頁面、截圖並仔細研究實現。完整執行通常跨越4小時,每輪迭代5到15次。生成器在每次評估後做出策略決定:若分數趨勢良好則精煉方向,否則完全轉換美學方向。

有趣的是,評分標準的措辭間接影響生成器的輸出——如「最好的設計具博物館等級品質」這類短語,推動設計朝特定視覺匯聚。即使第一輪迭代,輸出品質也明顯優於無提示基線,表明評分標準本身已導引模型遠離通用預設值。在荷蘭藝術館網站案例中,第十輪突然轉向:生成器以CSS透視繪製檢視地板的3D房間、自由位置懸掛藝術品,並以門廊導航替代滾動點擊——這種創意跳躍在單輪生成中罕見。

全端程式開發的三Agent架構

該GAN啟發方法自然對應軟體開發生命週期,其中程式審查與QA扮演設計評估器的結構性角色。新架構包含:

  • 規劃器:自動將簡短的1-4句提示展開為完整的產品規格,被指示雄心勃勃地擴大範圍,聚焦產品內涵與高階技術設計而非細粒度實現細節。同時尋機將AI特性編入規格中。

  • 生成器:採用逐特性方法進行衝刺(sprint),使用React、Vite、FastAPI與SQLite/PostgreSQL堆疊,配備Git版控。每個衝刺結束前進行自我評估,然後移交給QA。

  • 評估器:使用Playwright MCP如真實使用者般點擊應用程式,測試UI功能、API端點與資料庫狀態。每個衝刺評分涵蓋產品深度、功能性、視覺設計與程式品質,任何標準未達門檻則衝刺失敗,回饋詳細改進說明。

衝刺前,生成器與評估器協商「衝刺合約」——在撰寫任何程式前達成共識,明確定義完成的外觀與驗證方法。此步驟架橋於高階使用者故事與可測試實現之間。各Agent透過檔案溝通,上一個Agent撰寫檔案、下一個Agent讀取並回應。

實際效果對比

Rajasekaran使用Claude Opus 4.5測試同一個「復古電玩製作工具」提示,比較完整架構與單一Agent的輸出。儘管架構成本超過20倍,品質差異立即顯著。

單一Agent的初始應用看似符合預期,但點擊後問題浮現:固定高度面板浪費空間、工作流僵硬、UI未引導使用者建立精靈(sprite)與實體的必要順序、遊戲核心實際損毀——實體出現但無法回應輸入,程式中精靈定義與遊戲運行時的連接斷裂。

架構版本從同一句提示擴展為16功能規格跨十個衝刺,遠超單一Agent嘗試。除核心編輯器與遊戲模式外,還包含精靈動畫、行為範本、音效/音樂、AI輔助精靈與關卡設計、可分享連結的遊戲匯出。應用程式立即展現更高拋光度與平順性——畫布充滿檢視區、面板尺寸合理、視覺識別一致。精靈編輯器功能更豐富、工具面板更清晰、色選器與縮放控制更易用。重要的是,遊戲可實際遊玩——角色能移動,儘管物理邊界有粗糙處(角色與平台重疊),但