← 返回首頁

Google Cloud 推出 AI Hypercomputer 新能力,針對代理時代優化基礎設施

Google Cloud
Google Cloud
@googlecloud
76🔁 10
𝕏 (Twitter)🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Google Cloud 推出 AI Hypercomputer 新能力,針對代理時代優化基礎設施。

Google Cloud 在 Google Cloud Next 活動中宣布擴大「AI Hypercomputer」架構,推出第八代 TPU、Virgo Network 等硬體與軟體升級,專為代理式人工智慧(agentic AI)設計。此架構驅動 Gemini 模型與企業服務,強調統一堆疊以應對代理分解任務、協作與即時強化學習的需求,避免傳統架構的成本暴增與效能瓶頸。

代理時代轉變
代理時代下,單一意圖觸發連鎖反應:主 Agent 將目標分解為專門子 Agent 任務群,透過狀態保存與強化學習實現即時成果。此模式放大每筆互動的智慧規模,但舊架構難以支撐,需超越手動整合碎片元件。Google AI Hypercomputer 提供目的導向硬體、開放軟體與彈性計費模式,實現智慧、快速、可擴展且成本效益高的代理體驗。

第八代 TPU 系統
首次推出兩款專異晶片:

  • TPU 8t:訓練主力,運算效能較前代提升近 3 倍,單一 superpod 整合 9,600 顆晶片,提供 121 exaflops 運算與 2 PB 共享記憶,透過高速 ICI 互聯實現近線性擴展;結合 Pathways 與 JAX,可將數月訓練縮短至數週,單叢集支援逾 100 萬顆 TPU。
  • TPU 8i:推理與強化學習專用,片上 SRAM 增至 384 MB、HBM 達 288 GB,突破記憶牆,全矽上託管巨量 KV Cache;ICI 頻寬翻倍至 19.2 Tb/s、直徑減逾 50%、新增 CAE 引擎將片上延遲降至 1/5,提供每美元效能提升 80%,適合高併發代理互動。
    TPU 8t 與 8i 即將對 Cloud 使用者開放。

NVIDIA Vera Rubin 與 A5X 實例
為因應多樣工作負載,Google 與 NVIDIA 深度合作,年底率先推出基於 Vera Rubin NVL72 的 A5X 裸機實例。同時透過 Open Compute Project 共同開發開源 Falcon 網路協議,提升可靠傳輸極限。Thinking Machine Labs 即利用此 NVIDIA 基礎設施驅動 Tinker 平台,實現邊緣模型強化學習與微調,訓練與服務速度提升逾 2 倍。

CPU 補強代理邏輯
GPU 與 TPU 專攻模型訓練與推理,需高性能 CPU 處理周邊複雜邏輯、工具呼叫與回饋迴圈。新 Axion N4A VM 提供優異價格效能,GKE Agent 沙盒搭配 Axion N4A 較其他超大規模雲端商代理工作負載提升 30%。第四代 Compute Engine VM 則由 Intel 與 AMD x86 CPU 驅動,優化強化學習任務如獎勵計算、Agent 協調與巢狀視覺化,涵蓋全 AI 工作負載。

Virgo Network 資料中心織網
Virgo Network 採用塌陷式織網架構,頻寬較前代增 4 倍,消除「擴展稅」,實現近線性效率峰值運算。搭配 TPU 8t,可單資料中心串聯 134,000 顆 TPU、多站點逾 100 萬顆,化全球分散基礎設施為單一超級電腦;對 A5X(NVIDIA Vera Rubin NVL72)支援單中心 80,000 顆 GPU、多站點 960,000 顆。

儲存系統升級
為避免儲存成瓶頸,四大進展包括:

  • Managed Lustre:頻寬達 10 TB/s(去年增 10 倍、較他商快 20 倍),容量擴至 80 PB,由 C4NX 實例與 Hyperdisk Exapools 驅動。
  • 低延遲傳輸:TPUDirect 與 RDMA 繞過主機,直接饋入加速器,讓 Agent 近即時回應。
  • Rapid Buckets:Google Cloud Storage 子毫秒延遲、每秒 2,000 萬作業,確保訓練檢查點與恢復近即時,維持加速器 95% 以上利用率,加速週期並節省 TPU/GPU 成本。
  • Z4M 實例:整合 Vast Data 或 Sycomp 等平行檔案系統,每實例 168 TiB 本地 SSD,RDMA 叢集擴展至數千台機。
    這些選項建構全面儲存組合,匹配各用例。

GKE 代理原生協調
GKE 轉型為代理原生工作負載首要協調引擎,優化啟動與擴展每毫秒:

  • 節點啟動加速 4 倍、pod 啟動減 80%。
  • 模型載入 5 倍速,藉 run:AI Model Streamer 與 Rapid Cache 消除儲存瓶頸。
    Inference Gateway 引入 AI 驅動路由,取代啟發式預測,實時容量感知將 TTFT 延遲減逾 70%,無需手動調校,支持自然語音對話與即時互動。可搭配 llm-d(CNCF 沙盒專案,由 Google Cloud、Red Hat、IBM Research、CoreWeave 與 NVIDIA 共同貢獻),支援任意模型、加速器與雲端。

開放軟體生態
硬體需軟體共構,AI Hypercomputer 原生支援 JAX、PyTorch 與 vLLM,縮短開發部署摩擦,提升資源效率。目前 TorchTPU 預覽支援 TPU 上原生 PyTorch(含 Eager Mode),結合 vLLM 強調開放與選擇自由。

代理成長基礎
AI Hypercomputer 透過矽至軟體共構,卸除整合負擔,讓團隊專注業務。作為 Gemini Enterprise 與 Agent Platform 基石,搭配無伺服器訓練與 Managed RL API,將效能轉化業務價值,支持自訂 Gemini 業務邏輯,建構複雜代理解決方案。Google 期待使用者以此平台創新。