# 策展 · X (Twitter) 🔥🔥🔥

> 作者：Augment Code (@augmentcode) · 平台：X (Twitter) · 日期：2026-05-03

> 原始來源：https://x.com/augmentcode/status/2050648212130910234

## 中文摘要

Augment Code 推出 Prism 模型路由器，每輪互動自動切換最適模型，品質匹配頂尖模型卻降低 20-30% 成本。

Prism 是 Augment 模型選擇器的新選項，能為每個使用者互動輪次（turn）路由至最適合任務的底層模型，讓團隊每月發送 10,000 個使用者請求，即可節省約 $20,000 token 支出，或降低高達 30% 成本，品質與邊境推理模型（frontier reasoning models）幾乎無差。

**效能對比頂尖模型**

在 Augment 內部多輪程式撰寫基準測試中，Prism 品質匹配最佳單一模型，每任務成本卻比邊境推理模型低 20-30%。此基準基於大型 Go 程式庫的歷史 PR 轉換成合成多訊息開發者對話，涵蓋從設定到推進變更的難度範圍，每任務從 PR 基底 commit 啟動，Agent 導航程式碼庫、編輯檔案、執行工具並產生最終 diff。

- LLM 評審模型依正確性、完整性、程式碼重用、最佳實務及未要求文件等評分 diff，對原 PR 產生 [-1, 1] 聚合分數，正值表示偏好 Agent diff。
- 兩個 Prism 配置：Prism (GPT + Kimi) 對標 GPT 5.5、Prism (Claude + Gemini) 對標 Opus 4.7，各達設計品質目標且成本更低。
- 方法論注意：單一 Go 程式庫易受特定語言影響，評審為 LLM 雖與人類審核相關但單任務可能分歧，成本計入 API 層級含 prompt-cache 讀寫。

Prism 讓開發者維持偏好模型家族，成本更低，解決「無單一模型全勝」的現實。

**建置 Prism 的動機**

Token 使用量暴增，成本隨之失控。頂尖模型品質優異，但並非所有任務平等；用 SOTA 推理模型處理簡單任務，如開 Ferrari 去四條街區買菜，浪費嚴重。

- 近期 IDE Agent 流量顯示，前 10% 使用者輪次耗掉 57% LLM 呼叫，大多數輪次為輕量工作，卻全按邊境模型計費，因使用者會話起始選定後不變。
- 切換中途更糟，因模型切換會廢棄 prompt cache，下輪成本約為 cache hit 的 10 倍；使用者寧選最大模型避免錯誤。
- 隨著工程團隊 Agent 使用擴大，此成為真實支出項目，領導者質疑：每個任務都需要最佳模型？Prism 正是回應，維持品質降低支出。

Augment 模型無關（model agnostic），提供業界領先模型池，按輪次而非會話起始決定路由，避免使用者摩擦。

**路由邏輯與快取管理**

建構模型路由器難不在選擇，而在切換。Prism 為底層模型池上的規劃器（planner），每使用者輪次前，小型快速規劃模型讀取請求決定路由，從外觀如模型選擇器中任一模型。

- 僅當不同模型預期收益超過 cache 廢棄成本時才切換；規劃器不干預進行中輪次，路由決策在 Agent 工具呼叫後續內黏性（sticky），切換時管理新模型上下文以界定成本。
- 生產流量中，規劃器僅 4% chat-host 輪次執行（其他 96% 為工具結果重用快取決策），平均每輪貢獻 3% 總請求時間。
- 規劃器成本微小：25 任務執行總 $2,649 中僅 $0.91（0.03%），單輪 $0.14-0.17（0.10-0.14%）；延遲中位 2.6 秒（p90 4.0s、p99 5.4s），占 Prism (GPT + Kimi) 新訊息輪次中位 6 秒的 30-40%，短互動輪次較明顯。

**額外基準驗證**

在單任務基準如 Terminal Bench 2.0（路由器最壞情境，硬任務多建議永用最強模型），Prism 無明顯品質退化：

- Prism (GPT + Kimi) 比 GPT 5.5 低 0.3pp、成本低 17%（vs Opus 4.7 低 20%）。
- Prism (Claude + Gemini) 與 Opus 4.7 持平，但略貴，因廉價模型需更多 token 抵銷優勢。

SWE-Bench Pro（731 實例，更極端硬任務）中，路由空間最小，Prism 仍維持：

- Prism (GPT + Kimi) 比 GPT 5.5 低 0.7pp、成本低 12%。
- Prism (Claude + Gemini) 比 Opus 4.7 低 2.3pp、成本低 7%。

成本優勢隨工作負載移向「永用最強模型」而壓縮，但不反轉，證明路由穩健。

**即時可用性與計費**

Prism 已上線模型選擇器：VS Code、JetBrains、CLI (/model) 及 web。計費歸單一 Prism 項目，不揭露底層模型，目的是讓使用者免於思考。

**未來優化方向**

Augment 承認三項待解：

- 為進階使用者揭露路由模型，用於除錯不改預設。
- 允許限制路由池，如排除特定模型或限子集。
- 降低規劃器 2.6 秒延遲（time-to-first-token）。
- 新增「偏好廉價」或「偏好最佳」旋鈕，讓使用者/團隊控制成本-品質權衡。

立即試用 Prism，下個 Agent 會話體驗並回饋；Augment 將持續優化 Agentic 工程的成本/品質權衡。

## 標籤

新產品, 功能更新, AIGC, Augment Code
