# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：Vercel (@vercel) · 平台：X (Twitter) · 日期：2026-05-14

> 原始來源：https://x.com/vercel/status/2054667635539788022

## 中文摘要

# AI Gateway 生產環境指標

詢問哪一個 AI 模型最好，答案往往在墨水乾掉之前就變了。這就是一個每週都有新模型發布的產業中會發生的事。

每一個基準測試（benchmark）都在衡量不同的賽道，每一場賽道也都會產生各自的贏家，但 Vercel 透過生產環境的工作負載，對這個產業有著獨特的觀察。AI Gateway 透過真實的應用程式與 Agent，為數百個模型處理了數十兆的 token。

以下是我們的觀察：

- 儘管單位價格較高，Anthropic 在支出方面仍處於領先地位，而 Google 則在流量規模上領先。
- 開源模型（OSS models）正逐漸獲得採用，但使用者對特定實驗室並沒有忠誠度。
- 在近期模型更新後，OpenAI 的支出份額正在快速成長。
- 高流量的工作負載平均會路由（route）到 30 個以上的不同模型。
- Agentic 程式開發的工作負載佔了所有 token 流量的 59%（在 6 個月內成長了 2 倍）。

本報告基於 AI Gateway 七個月的生產環境流量資料，涵蓋超過 20 萬個獨立團隊的使用情況。

## Anthropic 在支出領先；Google 在流量領先

成本與流量的排名之所以不同，是因為它們衡量的是兩種不同的工作負載，即便對於同一個客戶也是如此。

以 2026 年 4 月的支出來看，Anthropic 佔了 61%，Google 佔 21%，OpenAI 佔 12%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908135-iaHIOKguQW8AAJKhWpng.png)

若以 token 流量來看，情況則完全翻轉。4 月份透過 AI Gateway 的流量中，38% 路由至 Google，26% 至 Anthropic，13% 至 OpenAI，10% 至 xAI。其餘份額則由較小的實驗室瓜分。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908122-iaHIOKoNYWoAACbe8png.png)

有些模型透過足夠便宜的單一 token 價格來承載巨大流量，而另一些模型的定價則較高，僅在品質至關重要的任務中才具備合理性。這些不同的模型並非在爭奪同一個呼叫（call）。總體而言，同一個客戶群同時出現在兩個排行榜上，高階推理呼叫會使用 Claude Opus，而廉價且快速的呼叫則使用 Gemini Flash。支出跟隨高風險的呼叫，而流量則跟隨低風險的呼叫，各個實驗室在同一個應用程式中佔據了不同的層級。

流量與支出的比例在實驗室層級也會快速變化。以下是幾個具體訊號：

- Gemini Flash 幫助 Google 以較低的支出份額取得了流量領先。
- Claude Opus 幫助 Anthropic 以比 Google 更少的流量取得了支出領先。
- 在 GPT-5.4/5.5 發布後，OpenAI 的支出份額從 3 月到 4 月成長了三倍。
- 隨著 Gemini Flash 的使用規模擴大，Google 的支出份額從 3 月的 8% 攀升至 4 月的 21%。

## 支出跟隨「出錯的代價」

同樣的成本與流量分歧，在特定類型的工作負載內部也以更細緻的方式存在：

- 個人助理佔成本的 20%，但佔 token 流量的 40%。
- 程式撰寫 Agent 在成本與 token 佔比上大致平衡，分別為 22% 與 20%。
- 後勤（Back office）Agent 佔成本的 6%，但佔 token 的 15%。
- 應用程式生成佔成本的 7%，佔 token 的 11%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908179-iaHIPLAcGXIAA2moppng.png)

工作負載在每個 token 上的支出，取決於該使用情境下「錯誤答案」的代價有多高。個人助理可以使用廉價、快速的模型，因為錯誤只會影響個別使用者，且能被快速修正。後勤工作流程則會為更強大的推理能力付費，因為錯誤可能會引發法律、財務或營運風險，這些風險遠大於單次呼叫節省下來的成本。每個 token 的經濟效益是一張風險地圖：當錯誤代價越高時，應用程式在每個 token 上的支出就越多。

同樣的模式也存在於更廣泛的 B2C 與 B2B 劃分中。B2C 應用程式產生許多低成本的呼叫，而 B2B 應用程式則執行較少、但更昂貴的呼叫。以每個 token 為基準，B2B 的成本大約是 B2C 的兩倍。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908080-iaHIOLvX5WIAAro0wpng.png)

## 沒有單一供應商能贏下所有使用情境

將資料依據使用情境進行切割，顯示出一個碎片化的供應商格局：

- Anthropic 在軟體開發領域顯著領先。
- Google 在消費者應用領域表現突出。
- OpenAI 的分佈最為平均。
- xAI 與其他廠商則分散在程式撰寫、消費者應用與長尾使用情境中。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908095-iaHIOL3myWwAAwXpZpng.png)

Anthropic 的模式是集中在高風險層級。隨著工作負載從後勤轉向消費者應用，Anthropic 的 token 份額從 71% 下降到 7%。其成本份額的曲線則平緩許多，並在四個類別中的三個保持領先。無論有多少流量通過，營收總是集中在「答案必須正確」的地方。

Google 的情況則呈現相反的形狀。其足跡集中在消費者應用領域，Gemini Flash 在該領域以 15% 的成本承載了 28% 的 token，而在該領域之外的成本圖表中幾乎看不到它的蹤影。這種定位是一場單一產品（SKU）的賭注，隨著 Flash 的採用率起伏。

xAI 則是一個價格楔子。Grok 在程式撰寫中承載了 20% 的 token，在推廣應用中承載了 18% 的 token，但其成本份額在各個領域都顯著較低。xAI 在「價格與品質的契合度」上勝出，而任何能匹配此價格的對手都會縮小這個楔子。

OpenAI 是這四者中最平衡的，在程式撰寫成本佔 6%、消費者應用成本佔 18%、推廣應用成本佔 28%。沒有任何單一層級是 OpenAI 整體份額的支柱，這使得該公司在面對任何單一層級的破壞時，受到的衝擊最小。

像 Kimi、MiniMax 與 GLM 這類開放權重（Open-weights）家族，在成本上限最低的消費者與程式撰寫層級中輪替。它們的成本份額保持在低檔，但它們在消費者與程式撰寫內部的 token 份額卻大到足以讓任何僅從成本角度觀察市場的人低估它們的影響力。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724907987-iaHIOL760XgAA4KjCpng.png)

## 應用程式正變得越來越 Agentic

在所有這些現象之下，生產環境 AI 請求的形態已經改變。在 2026 年 4 月，22.2% 的 AI Gateway 請求以 tool call 結束，高於 2025 年 10 月的 11.4%。若以 token 來衡量，這種轉變更為巨大。現在有 58.9% 的 token 來自於包含 tool call 的請求，高於六個月前的 31.6%。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908062-diaHIOLfAWwAAPKzlpng.png)

從這兩個指標來看，Agentic 的份額在半年內大約翻了一倍，但更具指標性的數字是這兩個份額之間的差距。22.2% 的請求承載了 58.9% 的 token，這意味著使用 tool 的請求在 token 消耗上大約是其他請求的 2.6 倍。AI 的成本面貌已從「聊天型」轉向「Agent 型」，而總請求數卻幾乎沒有變動。

每一種往返呼叫（round trip）都會根據同一個計量標準收費，無論是函式執行、API 呼叫、資料庫查詢還是程式執行，因此一個發出十次 tool call 的 Agent，其收費的 token 大約是聊天的十倍。聊天模式在每個 prompt 下只會產生一次往返呼叫，而 Agent 則會產生一個鏈（chain）。

## 排行榜只會排名單一模型，但生產環境團隊大規模使用 35 種以上模型

在大規模應用下，多模型（multi-model）不再是一種選擇，而是標準的 Agent 架構。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908088-iaHIOMEIRWsAAJ2Alpng.png)

執行 1,000 到 10,000 次請求的團隊平均使用 3 種不同的模型。到了 1,000 萬次以上請求的區間，平均使用量達到 35 種模型。從 100 萬至 1,000 萬區間的 18 種模型，跳升至 1,000 萬以上的 35 種模型，這就是關鍵的轉折點。

一個擁有 35 種模型的機隊（fleet）會以路由圖（routing graph）的形式運作：使用廉價的分類器進行意圖偵測、使用前沿模型進行推理步驟、使用 embedding 模型進行檢索、使用快速模型進行摘要，以及使用視覺模型進行螢幕截圖分析。這些模型中的每一個都是可替換的。如果供應商漲價、品質下降或發生中斷，流量會在幾小時內重新分配到其他模型上。在產生排行榜大部分支出的規模下，在實驗室之間切換更像是配置變更，而非供應商遷移；隨著請求流量曲線的上升，關於「實驗室綁定」的傳統說法反而被顛覆了。

## 新模型被迅速採用

同樣的機隊設計解釋了新版本發布後被吸收的速度有多快。當一個模型家族發布新版本時，流量會在幾週內轉移過去。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908113-iaHIOMM66XAAAwo3Mpng.png)

Claude Sonnet 4.6 在發布後的第一個完整月份，就吸收了 Sonnet 家族大部分的份額。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908108-iaHIOMQU7W8AIYwqppng.png)

Opus 家族現在也正經歷同樣的過程，Claude Opus 4.7 正以幾乎相同的曲線從 Opus 4.6 手中搶佔份額。

在上述兩個時間窗口中，舊版模型在 AI Gateway 上依然保持在線且可路由，但團隊還是選擇了遷移。這種遷移只是一次配置變更，實驗室已不再能決定其自身產品線的升級時間表。

## 供應商中斷有隱形成本

在 AI Gateway 上，大約有 3.5% 的請求是在觸發備援（fallback）後完成的。這意味著初始路由遇到了錯誤、速率限制或逾時，而 Gateway 在足夠短的時間內將請求重新發送到健康的替代方案，讓使用者依然獲得了成功的響應。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1778724908102-iaHIOMUySXoAAq5glpng.png)

以 token 計算，救援率為 5.1%；以金額計算則為 4.9%。token 加權與成本加權的比例高於請求加權的比例，因為被救援的請求平均而言比未被救援的請求更大且更昂貴。長 context window 比短的更容易觸發速率限制，多步驟的 Agent 執行會在各個步驟中累積失敗，而繁重的推理呼叫在持續負載下容易逾時。這些失敗模式中的每一種都針對工作負載中昂貴的部分，這就是為什麼金額比例會高於請求比例的原因。

供應商的 SLA 衡量的是請求層級的正常運作時間（uptime），但生產環境應用程式體驗到的是「成本加權」的正常運作時間，而這兩者恰好在那些為模型付費的呼叫上產生了分歧。

## 結論：為工作負載而建，而非為實驗室而建

生產環境的工作負載是為了效率、可靠性與靈活性而設計的，而不是為了匹配最新的模型排行榜。

透過對同一份資料進行六種不同維度的切割，底層的形態始終如一。不同的實驗室贏得了同一個應用程式中不同的層級，而處理這些層級的架構，正是大規模生產環境團隊早已建立好的架構。

這呼應了早期雲端時代的情況。團隊先擴展運算資源（更多的實例、區域、冗餘），隨後才壓縮單位成本。在支出曲線頂端看到的 35 種模型機隊，正是以更快的節奏重複同樣的模式；隨之而來的最佳化發生在路由層。

對於今天任何發布 AI 產品的人：

- 規劃跨供應商的多模型策略。
- 假設有備援需求，以最佳化正常運作時間與成本。
- 從一開始就將路由設計為架構的核心單元。

隨著模式的轉變，我們預計會定期重新審視這些資料。即時模型排名可在 AI Gateway Leaderboards 上查詢。

---

## 關於此資料

本分析基於 Vercel AI Gateway 截至 2026 年 4 月的匿名化、匯總路由資料。

關於測量的幾點說明：

- 支出使用市場定價（已發布的列表價格）來提供跨團隊的標準化視角，即使團隊使用自己的 API Key 也是如此。
- 流量計算透過 AI Gateway 路由的 token 數量。
- B2C、B2B 與使用情境分類均為匯總資料。不會識別任何個別團隊或工作負載。

你可以在 Vercel 部落格閱讀原始報告。

## 標籤

Benchmark, 產業趨勢, AIGC, Vercel, Anthropic, Google
