# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Google Cloud (@googlecloud) · 平台：X (Twitter) · 日期：2026-04-23

> 原始來源：https://x.com/googlecloud/status/2046992808758686179

## 中文摘要

Google Cloud 推出 AI Hypercomputer 新能力，針對代理時代優化基礎設施。

Google Cloud 在 Google Cloud Next 活動中宣布擴大「AI Hypercomputer」架構，推出第八代 TPU、Virgo Network 等硬體與軟體升級，專為代理式人工智慧（agentic AI）設計。此架構驅動 Gemini 模型與企業服務，強調統一堆疊以應對代理分解任務、協作與即時強化學習的需求，避免傳統架構的成本暴增與效能瓶頸。

**代理時代轉變**  
代理時代下，單一意圖觸發連鎖反應：主 Agent 將目標分解為專門子 Agent 任務群，透過狀態保存與強化學習實現即時成果。此模式放大每筆互動的智慧規模，但舊架構難以支撐，需超越手動整合碎片元件。Google AI Hypercomputer 提供目的導向硬體、開放軟體與彈性計費模式，實現智慧、快速、可擴展且成本效益高的代理體驗。

**第八代 TPU 系統**  
首次推出兩款專異晶片：  
- **TPU 8t**：訓練主力，運算效能較前代提升近 3 倍，單一 superpod 整合 9,600 顆晶片，提供 121 exaflops 運算與 2 PB 共享記憶，透過高速 ICI 互聯實現近線性擴展；結合 Pathways 與 JAX，可將數月訓練縮短至數週，單叢集支援逾 100 萬顆 TPU。  
- **TPU 8i**：推理與強化學習專用，片上 SRAM 增至 384 MB、HBM 達 288 GB，突破記憶牆，全矽上託管巨量 KV Cache；ICI 頻寬翻倍至 19.2 Tb/s、直徑減逾 50%、新增 CAE 引擎將片上延遲降至 1/5，提供每美元效能提升 80%，適合高併發代理互動。  
TPU 8t 與 8i 即將對 Cloud 使用者開放。

**NVIDIA Vera Rubin 與 A5X 實例**  
為因應多樣工作負載，Google 與 NVIDIA 深度合作，年底率先推出基於 Vera Rubin NVL72 的 A5X 裸機實例。同時透過 Open Compute Project 共同開發開源 Falcon 網路協議，提升可靠傳輸極限。Thinking Machine Labs 即利用此 NVIDIA 基礎設施驅動 Tinker 平台，實現邊緣模型強化學習與微調，訓練與服務速度提升逾 2 倍。

**CPU 補強代理邏輯**  
GPU 與 TPU 專攻模型訓練與推理，需高性能 CPU 處理周邊複雜邏輯、工具呼叫與回饋迴圈。新 Axion N4A VM 提供優異價格效能，GKE Agent 沙盒搭配 Axion N4A 較其他超大規模雲端商代理工作負載提升 30%。第四代 Compute Engine VM 則由 Intel 與 AMD x86 CPU 驅動，優化強化學習任務如獎勵計算、Agent 協調與巢狀視覺化，涵蓋全 AI 工作負載。

**Virgo Network 資料中心織網**  
Virgo Network 採用塌陷式織網架構，頻寬較前代增 4 倍，消除「擴展稅」，實現近線性效率峰值運算。搭配 TPU 8t，可單資料中心串聯 134,000 顆 TPU、多站點逾 100 萬顆，化全球分散基礎設施為單一超級電腦；對 A5X（NVIDIA Vera Rubin NVL72）支援單中心 80,000 顆 GPU、多站點 960,000 顆。

**儲存系統升級**  
為避免儲存成瓶頸，四大進展包括：  
- **Managed Lustre**：頻寬達 10 TB/s（去年增 10 倍、較他商快 20 倍），容量擴至 80 PB，由 C4NX 實例與 Hyperdisk Exapools 驅動。  
- **低延遲傳輸**：TPUDirect 與 RDMA 繞過主機，直接饋入加速器，讓 Agent 近即時回應。  
- **Rapid Buckets**：Google Cloud Storage 子毫秒延遲、每秒 2,000 萬作業，確保訓練檢查點與恢復近即時，維持加速器 95% 以上利用率，加速週期並節省 TPU/GPU 成本。  
- **Z4M 實例**：整合 Vast Data 或 Sycomp 等平行檔案系統，每實例 168 TiB 本地 SSD，RDMA 叢集擴展至數千台機。  
這些選項建構全面儲存組合，匹配各用例。

**GKE 代理原生協調**  
GKE 轉型為代理原生工作負載首要協調引擎，優化啟動與擴展每毫秒：  
- 節點啟動加速 4 倍、pod 啟動減 80%。  
- 模型載入 5 倍速，藉 run:AI Model Streamer 與 Rapid Cache 消除儲存瓶頸。  
**Inference Gateway** 引入 AI 驅動路由，取代啟發式預測，實時容量感知將 TTFT 延遲減逾 70%，無需手動調校，支持自然語音對話與即時互動。可搭配 llm-d（CNCF 沙盒專案，由 Google Cloud、Red Hat、IBM Research、CoreWeave 與 NVIDIA 共同貢獻），支援任意模型、加速器與雲端。

**開放軟體生態**  
硬體需軟體共構，AI Hypercomputer 原生支援 JAX、PyTorch 與 vLLM，縮短開發部署摩擦，提升資源效率。目前 TorchTPU 預覽支援 TPU 上原生 PyTorch（含 Eager Mode），結合 vLLM 強調開放與選擇自由。

**代理成長基礎**  
AI Hypercomputer 透過矽至軟體共構，卸除整合負擔，讓團隊專注業務。作為 Gemini Enterprise 與 Agent Platform 基石，搭配無伺服器訓練與 Managed RL API，將效能轉化業務價值，支持自訂 Gemini 業務邏輯，建構複雜代理解決方案。Google 期待使用者以此平台創新。

## 標籤

Agent, 新產品, 功能更新, 產業趨勢, Google, Google Cloud, Gemini
