Google Cloud 推出 AI Hypercomputer 新能力，針對代理時代優化基礎設施

Google Cloud

@googlecloud

♥76🔁 10

𝕏 (Twitter)🔥🔥🔥🔥2026年4月23日

📎 來源文章 ↗查看原文 ↗

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Google Cloud 推出 AI Hypercomputer 新能力，針對代理時代優化基礎設施。

Google Cloud 在 Google Cloud Next 活動中宣布擴大「AI Hypercomputer」架構，推出第八代 TPU、Virgo Network 等硬體與軟體升級，專為代理式人工智慧（agentic AI）設計。此架構驅動 Gemini 模型與企業服務，強調統一堆疊以應對代理分解任務、協作與即時強化學習的需求，避免傳統架構的成本暴增與效能瓶頸。

代理時代轉變
代理時代下，單一意圖觸發連鎖反應：主 Agent 將目標分解為專門子 Agent 任務群，透過狀態保存與強化學習實現即時成果。此模式放大每筆互動的智慧規模，但舊架構難以支撐，需超越手動整合碎片元件。Google AI Hypercomputer 提供目的導向硬體、開放軟體與彈性計費模式，實現智慧、快速、可擴展且成本效益高的代理體驗。

第八代 TPU 系統
首次推出兩款專異晶片：

TPU 8t：訓練主力，運算效能較前代提升近 3 倍，單一 superpod 整合 9,600 顆晶片，提供 121 exaflops 運算與 2 PB 共享記憶，透過高速 ICI 互聯實現近線性擴展；結合 Pathways 與 JAX，可將數月訓練縮短至數週，單叢集支援逾 100 萬顆 TPU。
TPU 8i：推理與強化學習專用，片上 SRAM 增至 384 MB、HBM 達 288 GB，突破記憶牆，全矽上託管巨量 KV Cache；ICI 頻寬翻倍至 19.2 Tb/s、直徑減逾 50%、新增 CAE 引擎將片上延遲降至 1/5，提供每美元效能提升 80%，適合高併發代理互動。
TPU 8t 與 8i 即將對 Cloud 使用者開放。

NVIDIA Vera Rubin 與 A5X 實例
為因應多樣工作負載，Google 與 NVIDIA 深度合作，年底率先推出基於 Vera Rubin NVL72 的 A5X 裸機實例。同時透過 Open Compute Project 共同開發開源 Falcon 網路協議，提升可靠傳輸極限。Thinking Machine Labs 即利用此 NVIDIA 基礎設施驅動 Tinker 平台，實現邊緣模型強化學習與微調，訓練與服務速度提升逾 2 倍。

CPU 補強代理邏輯
GPU 與 TPU 專攻模型訓練與推理，需高性能 CPU 處理周邊複雜邏輯、工具呼叫與回饋迴圈。新 Axion N4A VM 提供優異價格效能，GKE Agent 沙盒搭配 Axion N4A 較其他超大規模雲端商代理工作負載提升 30%。第四代 Compute Engine VM 則由 Intel 與 AMD x86 CPU 驅動，優化強化學習任務如獎勵計算、Agent 協調與巢狀視覺化，涵蓋全 AI 工作負載。

Virgo Network 資料中心織網
Virgo Network 採用塌陷式織網架構，頻寬較前代增 4 倍，消除「擴展稅」，實現近線性效率峰值運算。搭配 TPU 8t，可單資料中心串聯 134,000 顆 TPU、多站點逾 100 萬顆，化全球分散基礎設施為單一超級電腦；對 A5X（NVIDIA Vera Rubin NVL72）支援單中心 80,000 顆 GPU、多站點 960,000 顆。

儲存系統升級
為避免儲存成瓶頸，四大進展包括：

Managed Lustre：頻寬達 10 TB/s（去年增 10 倍、較他商快 20 倍），容量擴至 80 PB，由 C4NX 實例與 Hyperdisk Exapools 驅動。
低延遲傳輸：TPUDirect 與 RDMA 繞過主機，直接饋入加速器，讓 Agent 近即時回應。
Rapid Buckets：Google Cloud Storage 子毫秒延遲、每秒 2,000 萬作業，確保訓練檢查點與恢復近即時，維持加速器 95% 以上利用率，加速週期並節省 TPU/GPU 成本。
Z4M 實例：整合 Vast Data 或 Sycomp 等平行檔案系統，每實例 168 TiB 本地 SSD，RDMA 叢集擴展至數千台機。
這些選項建構全面儲存組合，匹配各用例。

GKE 代理原生協調
GKE 轉型為代理原生工作負載首要協調引擎，優化啟動與擴展每毫秒：

節點啟動加速 4 倍、pod 啟動減 80%。
模型載入 5 倍速，藉 run:AI Model Streamer 與 Rapid Cache 消除儲存瓶頸。
Inference Gateway 引入 AI 驅動路由，取代啟發式預測，實時容量感知將 TTFT 延遲減逾 70%，無需手動調校，支持自然語音對話與即時互動。可搭配 llm-d（CNCF 沙盒專案，由 Google Cloud、Red Hat、IBM Research、CoreWeave 與 NVIDIA 共同貢獻），支援任意模型、加速器與雲端。

開放軟體生態
硬體需軟體共構，AI Hypercomputer 原生支援 JAX、PyTorch 與 vLLM，縮短開發部署摩擦，提升資源效率。目前 TorchTPU 預覽支援 TPU 上原生 PyTorch（含 Eager Mode），結合 vLLM 強調開放與選擇自由。

代理成長基礎
AI Hypercomputer 透過矽至軟體共構，卸除整合負擔，讓團隊專注業務。作為 Gemini Enterprise 與 Agent Platform 基石，搭配無伺服器訓練與 Managed RL API，將效能轉化業務價值，支持自訂 Gemini 業務邏輯，建構複雜代理解決方案。Google 期待使用者以此平台創新。

Today, we're announcing new capabilities to take AI Hypercomputer *even* further:

- TPU 8t and TPU 8i
- Virgo Network
- New performance metrics for Managed Lustre
- Support for NVIDIA Vera Rubin
+ more → https://t.co/ZiVAM9OHbY #GoogleCloudNext pic.twitter.com/DO8IOXxJrS
— Google Cloud (@googlecloud) April 22, 2026

延伸閱讀

TPU 8t 規格

goo.gle