# 策展 · X (Twitter) 🔥🔥🔥

> 作者：NVIDIA (@nvidia) · 平台：X (Twitter) · 日期：2026-04-30

> 原始來源：https://x.com/nvidia/status/2049524206673805734

## 中文摘要

# 重新思考 AI TCO：為什麼「每 token 成本」才是唯一重要的指標

來源：NVIDIA Blog

作者：Shruti Koparkar

傳統的資料中心僅負責儲存、檢索與處理資料。在生成式 AI 與 Agentic 程式開發的時代，這些設施已經演變為「AI token 工廠」。隨著 AI 推論成為其主要工作負載，它們的主要產出就是以 token 形式製造出來的智慧。

這種轉變要求我們必須同步調整評估 AI 基礎架構經濟效益的方式，包括總持有成本 (TCO)。企業在評估 AI 基礎架構時，往往過於關注晶片的峰值規格、運算成本，或是每投入一美元所能獲得的每秒浮點運算次數，也就是所謂的「每美元 FLOPS」。

真正關鍵的區別在於以下幾點：

- **運算成本 (Compute cost)**：這是企業為 AI 基礎架構支付的費用，無論是向雲端供應商租用，還是自行擁有地端設備。
- **每美元 FLOPS (FLOPS per dollar)**：這是企業每投入一美元所獲得的原始運算能力，但原始運算能力與實際的 token 產出並非同一回事。
- **每 token 成本 (Cost per token)**：這是企業生產每個交付 token 的全包式成本，通常以「每百萬 token 成本」來表示。

前兩者僅是輸入指標。當企業的業務運作依賴於產出時，卻只針對輸入進行優化，這是一種根本性的錯位。

每 token 成本決定了企業能否獲利地擴展 AI。它是唯一能直接反映硬體效能、軟體優化、生態系支援以及實際使用率的 TCO 指標，而 NVIDIA 能提供業界最低的每 token 成本。

## 哪些因素能降低 token 成本？

要了解如何優化 token 成本，必須檢視計算「每百萬 token 成本」的公式。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777513747070-iaHHFj81kagAAaTQrjpg.jpg)

在這個公式中，許多評估 AI 基礎架構的企業都將焦點放在分子上：每 GPU 每小時的成本。對於雲端部署而言，這是支付給雲端供應商的時薪；對於地端部署而言，這是從自有基礎架構折舊中得出的有效時薪。然而，降低 token 成本的真正關鍵在於分母：最大化交付的 token 產出。

該分母具有兩層商業意義：

- **最小化 token 成本**：當 token 產出的增加反映在成本公式中時，它會降低每 token 成本，這正是提升每次互動服務利潤率的關鍵。
- **最大化營收**：每秒交付更多的 token 也意味著每百萬瓦 (megawatt) 能產出更多的 token，這代表在 AI 驅動的產品與服務中能運用更多的智慧，從相同的基礎架構投資中產生更多的營收。

因此，只關注分子意味著忽略了驅動分母的因素。你可以將其視為「推論冰山」：分子位於水面上，清晰可見且易於比較；而分母則是水面下的所有事物，代表了決定實際 token 產出的關鍵因素。準確評估 AI 基礎架構，應從詢問水面下有什麼開始。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777513746815-iaHHCEgRMbkAAhntBjpg.jpg)

- **表面層級的詢問**：
  - 每 GPU 小時的成本是多少？
  - 峰值 Petaflops 與高頻寬記憶體容量是多少？
  - 每美元 FLOPS 是多少？

- **深入的成本分析**：
  - 每百萬 token 的成本是多少？具體來說，對於目前部署最廣泛的 AI 模型類型——大規模混合專家模型 (MoE) 推論模型，其每百萬 token 成本為何？
  - 每百萬瓦的交付 token 產出是多少？特別是對於地端部署而言，土地、電力與基礎架構的資本投入相當龐大，最大化每百萬瓦產出的智慧至關重要。
  - 擴展互連 (scale-up interconnect) 能否處理 MoE 模型的「全對全 (all-to-all)」流量？
  - 是否支援 FP4 精度？推論堆疊能否在保持高準確度的同時利用 FP4？
  - 推論執行時期 (inference runtime) 是否支援投機解碼 (speculative decoding) 或多 token 預測以增加使用者互動性？
  - 服務層 (serving layer) 是否支援解構式服務 (disaggregated serving)、KV 感知路由、KV 快取卸載以及其他優化？
  - 平台是否支援 Agentic 程式開發的獨特工作負載需求，包括超低延遲、高吞吐量與長輸入序列長度？
  - 平台是否支援跨所有模型架構的完整生命週期（從訓練、訓練後調整到大規模推論），以確保基礎架構的可替代性與高利用率？

上述每一項演算法、硬體與軟體的優化都必須啟用並整合，否則分母就會崩潰。一個「較便宜」但每秒交付 token 數量顯著較少的 GPU，最終會導致高得多的每 token 成本。在全堆疊上都能正確運作的 AI 基礎架構，能確保每一項優化都能增強其他項目的效能。

## 為什麼每 token 成本比每美元 FLOPS 重要得多？

以下關於 DeepSeek-R1 AI 模型的資料，展示了理論與實際商業成果之間的差異。

僅看運算成本，NVIDIA Blackwell 平台的成本似乎比 NVIDIA Hopper 高出約 2 倍，但運算成本並不能說明該投資所帶來的產出。僅分析每美元 FLOPS，可能會認為 NVIDIA Blackwell 相比 NVIDIA Hopper 架構有 2 倍的優勢。然而，實際結果卻有數量級的差異：Blackwell 每瓦的 token 產出比 Hopper 高出 50 倍以上，導致每百萬 token 成本降低了近 35 倍。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777513746804-iaHHCFEsla4AASt7Mjpg.jpg)

註：資料來源為 NVIDIA 分析與 SemiAnalysis InferenceX v2 基準測試。

這種巨大的差異證明，NVIDIA Blackwell 在商業價值上實現了對早期 Hopper 世代的巨大飛躍，其幅度遠遠超過了系統成本的任何增加。

## 如何選擇正確的 AI 基礎架構

基於運算成本或理論上的每美元 FLOPS 來比較 AI 基礎架構，不僅是不夠的，更無法準確呈現推論的經濟效益。正如資料所顯示，要準確評估 AI 基礎架構的營收潛力與獲利能力，必須從輸入指標轉向每 token 成本與交付的 token 產出。

NVIDIA 透過在運算、網路、記憶體、儲存、軟體與合作夥伴技術之間進行極致的協同設計，提供業界最低的 token 成本與最高的 token 吞吐量。此外，在 NVIDIA 平台上建構的開源推論軟體（如 @vllm_project、@sgl_project、NVIDIA TensorRT-LLM 與 NVIDIA Dynamo）持續進行優化，意味著在既有的 NVIDIA 基礎架構上，token 產出會持續增加，而每 token 成本在採購後仍會持續下降。

領先的雲端供應商與 NVIDIA 雲端合作夥伴已經在大規模地提供這種優勢。CoreWeave、Nebius、Nscale 與 Together AI 等合作夥伴皆已部署 NVIDIA Blackwell 基礎架構，並優化了其堆疊，為企業帶來當今最低的 token 成本，並在每一次服務互動背後，提供 NVIDIA 硬體、軟體與生態系協同設計的完整效益。

## 標籤

產業趨勢, AIGC, Agent, NVIDIA