# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Saito (@SaitoWu) · 平台：X (Twitter) · 日期：2026-05-03

> 原始來源：https://x.com/SaitoWu/status/2050876766101831918

## 中文摘要

所有人都低估AI推理層價值，高估大模型本身。

Baseten一年內實現30倍增長，今年預計營收超過10億美元，其核心業務為AI推理雲服務；No Priors Podcast與CEO Tuhin Srivastava對話指出，推理才是AI終極市場，供給極度緊張，自訂模型已全面爆發。

**市場劇變與需求爆發**

過去24個月，市場明顯轉變，越來越多家公司意識到AI可嵌入幾乎所有產品與流程，開源模型能力跨越關鍵門檻，RL與後訓練成為主流，企業開始內部建構自身智慧。

這導致長尾模型與自訂模型同時爆發，Baseten作為基礎設施層，直接承接需求增長。一個關鍵數據是，95%的token來自自訂或後訓練模型；在Baseten上，絕大多數流量非直接使用原始開源權重，而是客戶基於自身資料後訓練的專屬模型。

**業務模式與客戶訴求**

Baseten業務分為兩類：
- Dedicated inference，即專屬叢集，服務等級協議可完全自訂。
- Shared inference，共享資源模式。

目前絕大部分需求集中在dedicated上，客戶核心訴求是將自身資料與workflow深度嵌入模型中。

**應用層與企業自建關係**

應用公司將長期存在，因其能獲取獨特使用者訊號，例如醫療場景中Abridge可取得醫生真實工作中編輯與修改的資料，用於後訓練形成差異化模型，而模型實驗室無法獲取這些資料。

類似公司包括Decagon、Writer、Gamma，其核心競爭力本質來自workflow與專屬資料結合。

**開源模型態度**

客戶對前沿開源模型態度開放，例如DeepSeek、Moonshot、Qwen及Llama系列。

Tuhin觀點包括：
- 中國模型整體強勁，性價比高，有些情況比Anthropic便宜80%，延遲更低。
- 未見確鑿安全後門證據。
- 美國需建立自身強大開源生態，否則長期處劣勢。

他總結，可將這些模型視為全球技術asset使用，不必受國別限制創新。

**供給側緊張**

供給緊張遠超想像，Baseten內部幾無空閒算力，叢集利用率長期維持中高90%區間，在全球運行多雲環境與大量叢集。

若現採購大規模GPU如1024張NVIDIA B200，通常需簽三到五年合約，並提前支付20%至30%。不僅硬體短缺，能穩定運行大規模叢集的人才同樣稀缺，市場供應商品質參差不齊。

**Inference與後訓練閉環**

Inference與後訓練本質為同一枚硬幣兩面，Baseten最近收購後訓練團隊，打通完整閉環。未來路徑為：
- Inference產生資料。
- Eval進行評估。
- Post-train優化模型。
- 再進入更高质量的inference。

持續學習重要性將增高，Inference不再孤立，而是智能循環的最後一公里。

**人類價值與平台黏性**

在inference雲層，人類價值聚焦：
- 獲取與調度算力資源，包括多雲與全球部署。
- 運行時優化，如KV cache、prefill與decode分離、speculative decoding。
- 建構基礎能力，包括沙盒、評估系統、非同步批處理等。
- 助客戶打通後訓練與推理鏈路。

Tuhin強調，單純GPU即服務無黏性，但疊加軟體層後，平台極具黏性；Baseten前30大客戶目前無流失。

**未來判斷**

消費者側將出現具concierge水準的AI，如個人化教育、醫療與客戶支援；在開發者與公司層，若不擁抱Agentic程式開發，將面臨極大風險。

整體趨勢為智能成本持續下降，嵌入更多workflow，催生更多軟體形態。AI應用爆發已非是否問題，而是速度與深度問題；Baseten一年30倍增長即直接訊號，供給緊張而需求快速釋放。抓住機會關鍵，在於盡早將使用者訊號轉化為模型層競爭優勢。

## 標籤

產業趨勢, LLM, AIGC, Baseten