Google 發布 Gemma 4 開放模型系列,支援多模態與邊緣運算
AI 語音朗讀 · Edge TTS
Google 發布 Gemma 4 開放模型系列,支援多模態與邊緣運算。
Google DeepMind 推出 Gemma 4 多模態模型系列,具備 Apache 2.0 開源授權,並針對從邊緣裝置到高效能伺服器等各種場景進行了全面優化。該系列模型在多項基準測試中表現優異,甚至在開箱即用的狀態下就展現出極高水準,讓開發者能輕鬆整合至各類應用中。
模型架構與規格
Gemma 4 包含四種尺寸,皆提供基礎與指令微調版本,支援長視窗與多模態輸入,並捨棄了如 Altup 等複雜且結論不明確的功能,轉而採用更具相容性與效率的設計。
- 規格配置:
- E2B (2.3B 參數,128k 視窗) 與 E4B (4.5B 參數,128k 視窗):支援音訊、影像與文字。
- 31B (31B 密集模型,256k 視窗) 與 26B A4B (MoE 架構,256k 視窗)。
- 關鍵架構特色:
- 「Per-Layer Embeddings (PLE)」:透過平行且低維度的條件路徑,為每一層提供專屬的 token 資訊,提升層級專門化。
- 「Shared KV Cache」:最後 N 層重複使用先前層級的 KV 張量,有效減少長視窗生成時的計算與記憶體開銷。
- 注意力機制:交替使用局部滑動視窗(512 或 1024 token)與全域完整上下文注意力層。
多模態能力與應用
Gemma 4 在無需額外微調的情況下,即展現出強大的多模態處理能力,包括物件偵測、GUI 元素識別與音訊理解。
- 物件偵測與 GUI:能精確識別影像中的元素並以 JSON 格式輸出座標,無需語法限制,適用於 GUI 元素偵測與 pointing 任務。
- 影片與音訊理解:支援無音訊與有音訊影片分析,在音訊內容理解上表現尤為突出,能進行詳細描述與轉錄。
- 函數呼叫:支援文字與多模態函數呼叫,能結合影像資訊進行邏輯推理(例如根據地標影像查詢天氣),並能透過「思考」模式提升複雜任務的準確性。
部署與生態整合
為實現「隨處部署」的目標,Gemma 4 在發布首日即獲得多種開源推論引擎與工具的支援。
- Transformers:支援
AutoModelForMultimodalLM,可與 bitsandbytes、PEFT 等工具整合。 - Llama.cpp:支援影像與文字輸入,可透過 GGUF 格式在本地伺服器或 Agent 中執行。
- WebGPU:透過 transformers.js 實現瀏覽器端零安裝執行。
- MLX 與 Mistral.rs:提供針對 Apple Silicon 與 Rust 原生環境的優化支援,其中 MLX 支援 TurboQuant 量化技術,能以 4 倍更少的記憶體運行。
微調與開發支援
開發者可透過多種平台與工具對 Gemma 4 進行微調,以適應特定任務需求。
- TRL:支援多模態工具回饋,並提供如 CARLA 模擬器駕駛訓練等範例,模型能接收影像回饋並學習決策。
- Vertex AI:支援在 Google Cloud 上使用 H100 GPU 進行高效微調,並可凍結視覺與音訊塔。
- Unsloth Studio:提供簡單的本地或 Colab 微調介面,方便快速部署。
技術觀點與反思
作者團隊指出,Gemma 4 的效能表現令人印象深刻,甚至在開箱即用的狀態下就難以找到合適的微調範例,顯示其預訓練品質已達相當高水準。
- 效能對比:31B 模型在 LMArena 測試中達到 1452 分,與 GLM-5 或 Kimi K2.5 相當,但參數規模小了約 30 倍。
- 生態影響:Google 透過貢獻模型至 transformers 程式庫,推動了模型的標準化,使得開源生態系統更加完整,提供了一個具備高能力且自由授權的開放模型選擇。
💎4️⃣ Just released: Gemma 4 is Google's most intelligent open model family.
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
Live on @huggingface now!
8 models. 2B to 31B. Up to 256K context.
Frontier reasoning, agents, multimodal, edge-ready.
Apache 2.0.
Build anything, deploy anywhere. 🚀
Models, demos, blog: links… pic.twitter.com/yLSCKKkacW
💎4️⃣ 1/ Workstation models: 26B MoE & 31B Dense
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
State-of-the-art reasoning, vision, and agentic workflows on local hardware. Runs at full precision on a single H100, or quantized on consumer GPUs. 256K context window. Perfect for coding assistants and local AI servers.…
💎4️⃣ 2/ Edge models: E2B & E4B
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
Frontier AI on a Raspberry Pi. Near-zero latency, fully offline, 128K context. Native audio + vision out of the box. Runs on Android and Jetson Nano too. https://t.co/pXmTcjPF6bhttps://t.co/rE5b1n4MYahttps://t.co/wGHR34PyT9…
💎4️⃣ 3/ Running Gemma 4 locally with llama.cpp?
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
GGUF versions are ready:
ggml-org/gemma-4-E2B-it-GGUF
ggml-org/gemma-4-E4B-it-GGUF
ggml-org/gemma-4-26B-A4B-it-GGUF
ggml-org/gemma-4-31B-it-GGUF https://t.co/lyFOiz0zXR
💎4️⃣ 4/ No GPU? No problem.
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
Try Gemma 4 right in your browser with our WebGPU interactive demo, powered by transformers.js.
Zero install. Runs client-side. 👉 https://t.co/rEnyMzY6B8
💎4️⃣ 5/ The Blog Post
— Jeff Boudier 🤗 (@jeffboudier) April 2, 2026
Everything you need to know about Gemma 4 and how to use ithttps://t.co/3DCArMwGLa
