← 返回首頁

Google 發布 Gemma 4 開放模型系列,支援多模態與邊緣運算

Jeff Boudier 🤗
Jeff Boudier 🤗
@jeffboudier
6
𝕏 (Twitter)🔥🔥🔥🔥🔥

AI 語音朗讀 · Edge TTS

AI 中文摘要Claude 生成

Google 發布 Gemma 4 開放模型系列,支援多模態與邊緣運算。

Google DeepMind 推出 Gemma 4 多模態模型系列,具備 Apache 2.0 開源授權,並針對從邊緣裝置到高效能伺服器等各種場景進行了全面優化。該系列模型在多項基準測試中表現優異,甚至在開箱即用的狀態下就展現出極高水準,讓開發者能輕鬆整合至各類應用中。

模型架構與規格
Gemma 4 包含四種尺寸,皆提供基礎與指令微調版本,支援長視窗與多模態輸入,並捨棄了如 Altup 等複雜且結論不明確的功能,轉而採用更具相容性與效率的設計。

  • 規格配置:
    • E2B (2.3B 參數,128k 視窗) 與 E4B (4.5B 參數,128k 視窗):支援音訊、影像與文字。
    • 31B (31B 密集模型,256k 視窗) 與 26B A4B (MoE 架構,256k 視窗)。
  • 關鍵架構特色:
    • 「Per-Layer Embeddings (PLE)」:透過平行且低維度的條件路徑,為每一層提供專屬的 token 資訊,提升層級專門化。
    • 「Shared KV Cache」:最後 N 層重複使用先前層級的 KV 張量,有效減少長視窗生成時的計算與記憶體開銷。
    • 注意力機制:交替使用局部滑動視窗(512 或 1024 token)與全域完整上下文注意力層。

多模態能力與應用
Gemma 4 在無需額外微調的情況下,即展現出強大的多模態處理能力,包括物件偵測、GUI 元素識別與音訊理解。

  • 物件偵測與 GUI:能精確識別影像中的元素並以 JSON 格式輸出座標,無需語法限制,適用於 GUI 元素偵測與 pointing 任務。
  • 影片與音訊理解:支援無音訊與有音訊影片分析,在音訊內容理解上表現尤為突出,能進行詳細描述與轉錄。
  • 函數呼叫:支援文字與多模態函數呼叫,能結合影像資訊進行邏輯推理(例如根據地標影像查詢天氣),並能透過「思考」模式提升複雜任務的準確性。

部署與生態整合
為實現「隨處部署」的目標,Gemma 4 在發布首日即獲得多種開源推論引擎與工具的支援。

  • Transformers:支援 AutoModelForMultimodalLM,可與 bitsandbytes、PEFT 等工具整合。
  • Llama.cpp:支援影像與文字輸入,可透過 GGUF 格式在本地伺服器或 Agent 中執行。
  • WebGPU:透過 transformers.js 實現瀏覽器端零安裝執行。
  • MLX 與 Mistral.rs:提供針對 Apple Silicon 與 Rust 原生環境的優化支援,其中 MLX 支援 TurboQuant 量化技術,能以 4 倍更少的記憶體運行。

微調與開發支援
開發者可透過多種平台與工具對 Gemma 4 進行微調,以適應特定任務需求。

  • TRL:支援多模態工具回饋,並提供如 CARLA 模擬器駕駛訓練等範例,模型能接收影像回饋並學習決策。
  • Vertex AI:支援在 Google Cloud 上使用 H100 GPU 進行高效微調,並可凍結視覺與音訊塔。
  • Unsloth Studio:提供簡單的本地或 Colab 微調介面,方便快速部署。

技術觀點與反思
作者團隊指出,Gemma 4 的效能表現令人印象深刻,甚至在開箱即用的狀態下就難以找到合適的微調範例,顯示其預訓練品質已達相當高水準。

  • 效能對比:31B 模型在 LMArena 測試中達到 1452 分,與 GLM-5 或 Kimi K2.5 相當,但參數規模小了約 30 倍。
  • 生態影響:Google 透過貢獻模型至 transformers 程式庫,推動了模型的標準化,使得開源生態系統更加完整,提供了一個具備高能力且自由授權的開放模型選擇。