# 策展 · X (Twitter) 🔥

> 作者：Anthropic (@AnthropicAI) · 平台：X (Twitter) · 日期：2026-03-24

> 原始來源：https://x.com/anthropicai/status/2036481033621623056

## 中文摘要

Anthropic 透過多 Agent 架構提升 Claude 的前端設計與長期自主開發能力。

Anthropic 工程團隊透過引入「生成者-評估者」(Generator-Evaluator) 的多 Agent 架構，成功突破了 Claude 在前端設計與長期自主軟體開發上的效能瓶頸。此方法透過明確的評估標準與任務拆解，顯著提升了 AI 產出應用程式的品質與複雜度，解決了單一模型在執行長期任務時常見的「上下文焦慮」與自我評估偏差問題。

**核心挑戰：模型效能的瓶頸與失敗模式**

在過去的實驗中，Anthropic 發現單純依賴提示工程（Prompt Engineering）或簡單的任務拆解，在處理複雜任務時往往會觸及效能天花板。研究人員觀察到兩個主要的失敗模式：

- 上下文焦慮（Context Anxiety）：當任務過長、視窗即將填滿時，模型會傾向於過早結束工作。雖然「壓縮」（Compaction）技術可以縮短歷史紀錄，但無法提供模型一個「乾淨的開始」。
- 自我評估偏差：模型在評估自身產出時，傾向於給予過度正面的評價，即使產出品質平庸。這在主觀性強的設計任務中尤為明顯，因為缺乏像軟體測試那樣的二元判斷標準。

為了克服這些問題，團隊引入了「上下文重置」（Context Resets）機制，透過結構化的交接（Handoff）將狀態傳遞給下一個 Agent，確保模型始終擁有乾淨的視窗，儘管這增加了編排複雜度與 token 消耗。

**前端設計：將主觀品質轉化為可評估標準**

針對前端設計，團隊設計了一套基於「生成者-評估者」的迴圈機制。為了讓 AI 能評估設計的好壞，團隊將主觀的審美判斷轉化為具體的評分標準，並要求 Agent 嚴格遵循：

- 設計品質（Design Quality）：評估設計是否具備整體感，而非零散元件的堆砌。
- 原創性（Originality）：檢查是否有客製化決策，而非僅使用模板或 AI 生成的常見模式（如紫色漸層卡片）。
- 工藝（Craft）：技術執行面的檢查，包括字體層級、間距一致性、色彩和諧度及對比度。
- 功能性（Functionality）：評估介面的可用性，確保使用者能理解操作並完成任務。

透過 Claude Agent SDK，生成者 Agent 負責產出 HTML/CSS/JS，而評估者 Agent 則使用 Playwright MCP 直接與即時頁面互動，進行截圖與分析。這種「生成-評估-回饋」的迭代過程（每輪 5 到 15 次），迫使生成者在面對批評時進行調整，甚至在必要時徹底改變設計方向，從而產生了比單次生成更具創意與深度的作品。

**長期自主開發：三 Agent 架構的應用**

將此架構應用於全端開發時，團隊設計了一套包含「規劃者」、「生成者」與「評估者」的三 Agent 系統，以應對軟體開發生命週期中的複雜需求：

- 規劃者（Planner）：負責將使用者的簡短需求擴展為完整產品規格，並專注於高層次的技術設計，避免過早陷入細節導致錯誤累積。
- 生成者（Generator）：以「衝刺」（Sprint）為單位執行任務，每次僅實作一個功能，並在結束時進行自我評估。
- 評估者（Evaluator）：扮演 QA 的角色，使用 Playwright 點擊執行中的應用程式，針對功能、API 介面與資料庫狀態進行測試，並根據預先協商的「衝刺合約」（Sprint Contract）進行評分。

這種架構的關鍵在於「衝刺合約」：在程式撰寫前，生成者與評估者必須針對該階段的「完成定義」達成共識。這不僅彌補了高層次規格與可測試實作之間的鴻溝，也確保了開發過程始終符合預期。

**實際影響與成效分析**

在測試中，團隊使用 Claude Opus 4.5 進行實驗，比較了「單一 Agent」與「多 Agent Harness」的產出。結果顯示，儘管這種架構增加了編排複雜度、token 消耗與延遲，但產出品質有顯著差異：

- 完整性與可用性：單一 Agent 產出的應用程式在複雜操作下往往會崩潰或邏輯斷裂，而多 Agent 產出的應用程式不僅功能完整，且具備更佳的視覺一致性與使用者體驗。
- 產品直覺：透過規劃者將 AI 功能整合進規格中，產出的應用程式具備更高的實用價值。
- 迭代能力：評估者能精確指出程式碼中的 Bug 或設計缺陷，促使生成者進行針對性的修正，而非盲目地重寫。

這項研究證明，透過結構化的 Harness 設計與 Agent 間的職責分離，可以有效克服大語言模型在長期任務中的「上下文焦慮」與判斷力不足，為實現真正的自主軟體工程奠定了基礎。

## 標籤

Agent, 研究論文, Anthropic