# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Augment Code (@augmentcode) · 平台：X (Twitter) · 日期：2026-05-19

> 原始來源：https://x.com/augmentcode/status/2056406584700567836

## 中文摘要

# Opus 4.7 成本降低 33%：Auggie 如何在成本與品質上勝過 Claude Code

**TL;DR：** 我們針對 Opus 4.7 進行了 Auggie 與 Claude Code 的基準測試。Auggie 在品質上取得小幅領先（通過率 67.4% 對 66.3%），同時成本降低了約 33%，這歸功於更精準的檢索技術，進而提升了 token 的使用效率。

Augment 的 Context Engine 旨在為大型、複雜的程式庫提供高品質的結果。隨著前沿模型（frontier models）不斷進步，工程主管們關心的問題已從「它能做到嗎？」轉變為「在我們的規模下成本是多少？」。使用量正呈現爆炸式成長，token 的支出現在已成為董事會層級的關注項目。由於 OpenAI 和 Anthropic 在前沿模型市場佔據主導地位，兩者都沒有動力去降低程式開發 Agent 的運行成本。對於 Augment 而言，token 效率是我們關鍵的差異化優勢，也是我們引以為傲的地方。以下我們展示了 Augment 的 Agent「Auggie」與 Claude Code 在 Opus 4.7 上的正面對決。重點在於：品質相當，但成本降低了 33%。若再結合 Prism 的最佳模型路由（model routing），Augment 的客戶預計能以相同的輸出品質，節省高達 50% 的頂尖模型使用成本。

## 同樣的模型，33% 的折扣：Opus 4.7 上的 Terminal Bench 2.0

我們在 GCP `n4-highcpu-16` VM（16 vCPU, 32 GB RAM）上，使用 Opus 4.7 和預設設定，對 Auggie CLI 與 Claude Code 進行了 Terminal Bench 2.0 的正面對決。該基準測試透過 Harbor 框架執行，每個任務嘗試五次，並同時執行四個任務。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157820421-iaHInREEJawAEg4oPjpg.jpg)

通過率的差距（1.1%）處於任何單一基準測試運行時的變異範圍內，但成本差距則不然。在下表中，你可以看到節省的來源：減少了 token 使用量。快取讀取（Cache reads，即每一輪重播的歷史 context 總量）下降了 32%，輸出 token 下降了 37%。這正是 Context Engine 和我們的 harness 發揮作用的結果：減少無效的探索，降低昂貴的互動回合。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157821098-diaHInRrtKasAA0XWjpg.jpg)

## SWE-Bench Pro 上的 Auggie：品質更高，成本降低 23%

同樣的模式也出現在 SWE-Bench Pro 上，這是一個廣受認可的程式開發任務基準測試。我們在相同的對決設定下進行測試，每個任務嘗試三次，並同時執行八個批次。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157821601-diaHInR1xb0AAZLSJjpg.jpg)

Auggie 在品質上略勝一籌，且每次運行的成本仍降低了 23%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157820595-iaHInSEyEaEAAKcgOjpg.jpg)

快取讀取下降 30%，快取寫入下降 17.0%，總 token 使用量減少近三分之一，通過率則略微領先。其趨勢與 Terminal Bench 2.0 相同：更小、更精準的 context 能減少模型的工作量，並在運行結束時顯著降低帳單金額。

## 是什麼推動了 token 效率？

大多數程式開發 Agent 透過 grep 和關鍵字搜尋來組合 context。雖然這種方法隨著時間推移在品質上有所提升，但效率依然低下：Agent 會浪費大量回合去爬取檔案、讀取大段程式碼，並引入不相關的匹配結果，只為了找到真正重要的那幾行程式碼。每一次失誤都會導致額外的來回傳輸，而每一次來回傳輸都需要消耗 token。

Augment 的 Context Engine 和 harness 是為了 token 效率而打造的。它維護著你程式庫的語意索引，這不僅有助於在大型、複雜的程式庫中保持高品質，從檢索的角度來看也高效得多。這帶來了更少的回合數、更少的 token 使用量，最終降低了成本。

## 模型無關性（Model-agnostic）帶來進一步的節省

Auggie 不受限於單一模型提供商。Context Engine 位於你所選擇的任何前沿模型之前，這意味著當你選擇不同的模型時，同樣的效率優勢會產生疊加效應。以下是四種替代模型在 Terminal Bench 2.0 上與 Claude Code (Opus 4.7) 基線的對決結果。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157821213-iaHInSJ1lboAAXvh7jpg.jpg)

每個模型的成本都低於 Claude Code 基線；其中四個模型中有三個在通過率上持平或超越了它。

有兩種配置特別突出。**Auggie + GPT 5.5** 是追求品質的首選：通過率比 Claude Code 基線高出 **9.3%**，成本卻降低了 **54%**。**Auggie + GPT 5.4** 則是追求高性價比的首選：通過率相當，成本降低了 **73%**。Auggie + Gemini 3.1 在這兩個指標上則介於兩者之間。你可以設定最適合你的品質與成本平衡點。

## 這在真實的程式庫中也適用嗎？

公開的基準測試是一個有用的基線，但每位工程主管真正想知道的問題是：「這如何應用到我的程式庫中？」我們針對私有儲存庫和真實的客戶程式庫進行了內部評估，結果顯示該模式依然成立。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1779157820441-iaHInSPGEaYAECIjsjpg.jpg)

Claude Code 通過了 62 個任務；Auggie CLI 通過了 61 個——基本上是平手。但 Claude Code 每個通過任務花費了 **6.49 美元（總計 402 美元）**，而 Auggie 每個通過任務僅花費 **3.90 美元（總計 238 美元）**。同樣的模型、真實的儲存庫，結果呈現出與上述公開基準測試相同的趨勢。

## 透過 Prism 進行模型路由，進一步優化

上述所有比較都保持模型的一致性。有了我們新的模型路由器 Prism，你就不必受限於此。它會在使用者的每一次互動中進行評估，並選擇最適合該 Prompt 的模型——當工作需要時使用前沿模型，不需要時則使用更便宜的替代方案，並具備快取感知（cache-aware）切換功能，確保節省的成本真正落實。在 Auggie 原有的單任務效率之上，Prism 在我們測量的負載中又額外降低了 **20–30% 的成本**，且對品質的影響微乎其微。閱讀 Prism 的深度解析 →

作者：
Robbert Kauffman（Augment 解決方案架構師）與 Mayur Nagarsheth（Augment Code 解決方案架構負責人）

## 標籤

Claude Code, Benchmark, 功能更新, Agent, Augment, Anthropic, Claude