# 策展 · X (Twitter) 🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：Jeff Boudier 🤗 (@jeffboudier) · 平台：X (Twitter) · 日期：2026-04-02

> 原始來源：https://x.com/jeffboudier/status/2039739545210777600

## 中文摘要

Google 發布 Gemma 4 開放模型系列，支援多模態與邊緣運算。

Google DeepMind 推出 Gemma 4 多模態模型系列，具備 Apache 2.0 開源授權，並針對從邊緣裝置到高效能伺服器等各種場景進行了全面優化。該系列模型在多項基準測試中表現優異，甚至在開箱即用的狀態下就展現出極高水準，讓開發者能輕鬆整合至各類應用中。

**模型架構與規格**
Gemma 4 包含四種尺寸，皆提供基礎與指令微調版本，支援長視窗與多模態輸入，並捨棄了如 Altup 等複雜且結論不明確的功能，轉而採用更具相容性與效率的設計。

- 規格配置：
    - E2B (2.3B 參數，128k 視窗) 與 E4B (4.5B 參數，128k 視窗)：支援音訊、影像與文字。
    - 31B (31B 密集模型，256k 視窗) 與 26B A4B (MoE 架構，256k 視窗)。
- 關鍵架構特色：
    - 「Per-Layer Embeddings (PLE)」：透過平行且低維度的條件路徑，為每一層提供專屬的 token 資訊，提升層級專門化。
    - 「Shared KV Cache」：最後 N 層重複使用先前層級的 KV 張量，有效減少長視窗生成時的計算與記憶開銷。
    - 注意力機制：交替使用局部滑動視窗（512 或 1024 token）與全域完整上下文注意力層。

**多模態能力與應用**
Gemma 4 在無需額外微調的情況下，即展現出強大的多模態處理能力，包括物件偵測、GUI 元素識別與音訊理解。

- 物件偵測與 GUI：能精確識別影像中的元素並以 JSON 格式輸出座標，無需語法限制，適用於 GUI 元素偵測與 pointing 任務。
- 影片與音訊理解：支援無音訊與有音訊影片分析，在音訊內容理解上表現尤為突出，能進行詳細描述與轉錄。
- 函數呼叫：支援文字與多模態函數呼叫，能結合影像資訊進行邏輯推理（例如根據地標影像查詢天氣），並能透過「思考」模式提升複雜任務的準確性。

**部署與生態整合**
為實現「隨處部署」的目標，Gemma 4 在發布首日即獲得多種開源推論引擎與工具的支援。

- Transformers：支援 `AutoModelForMultimodalLM`，可與 bitsandbytes、PEFT 等工具整合。
- Llama.cpp：支援影像與文字輸入，可透過 GGUF 格式在本地伺服器或 Agent 中執行。
- WebGPU：透過 transformers.js 實現瀏覽器端零安裝執行。
- MLX 與 Mistral.rs：提供針對 Apple Silicon 與 Rust 原生環境的優化支援，其中 MLX 支援 TurboQuant 量化技術，能以 4 倍更少的記憶運行。

**微調與開發支援**
開發者可透過多種平台與工具對 Gemma 4 進行微調，以適應特定任務需求。

- TRL：支援多模態工具回饋，並提供如 CARLA 模擬器駕駛訓練等範例，模型能接收影像回饋並學習決策。
- Vertex AI：支援在 Google Cloud 上使用 H100 GPU 進行高效微調，並可凍結視覺與音訊塔。
- Unsloth Studio：提供簡單的本地或 Colab 微調介面，方便快速部署。

**技術觀點與反思**
作者團隊指出，Gemma 4 的效能表現令人印象深刻，甚至在開箱即用的狀態下就難以找到合適的微調範例，顯示其預訓練品質已達相當高水準。

- 效能對比：31B 模型在 LMArena 測試中達到 1452 分，與 GLM-5 或 Kimi K2.5 相當，但參數規模小了約 30 倍。
- 生態影響：Google 透過貢獻模型至 transformers 程式庫，推動了模型的標準化，使得開源生態系統更加完整，提供了一個具備高能力且自由授權的開放模型選擇。

## 標籤

LLM, 開源專案, 新產品, VLM, Google, Gemma