# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Google for Developers (@googledevs) · 平台：X (Twitter) · 日期：2026-05-06

> 原始來源：https://x.com/googledevs/status/2051700498328346945

## 中文摘要

Gemma 4 透過 MTP drafters 實現高達 3 倍推理加速。

Google 推出 Gemma 4 系列的 Multi-Token Prediction (MTP) drafters，利用推測解碼架構，讓模型同時預測多個 token，輸出速度提升至 3 倍，品質與推理邏輯絲毫不減。Gemma 4 自推出數週內下載量超過 6000 萬次，現進一步優化效率，適用於開發者工作站、行動裝置與雲端。

**推測解碼原理**

標準大型語言模型 (LLM) 推理受記憶體頻寬限制，主要瓶頸在於處理器花費大量時間將數十億參數從 VRAM 移至運算單元，只為產生單一 token，導致運算資源閒置與高延遲，尤其在消費級硬體上。推測解碼將 token 產生與驗證分離，搭配大型目標模型（如 Gemma 4 31B）與輕量 drafter (MTP 模型)，drafter 在目標模型處理單一 token 的時間內預測多個未來 token，目標模型再平行驗證所有建議 token。

標準自迴歸生成每次僅產生一個 token，對明顯延續（如「Actions speak louder than…」後預測「words」）與複雜邏輯題目投入相同運算，效率低下。MTP 透過推測解碼緩解此問題，若目標模型同意 draft，即在單次前向傳遞接受整個序列，並額外產生一個 token，讓應用在通常單 token 生成時間內輸出完整 draft 序列加一 token。此技術源自 Google 研究者論文 [Fast Inference from Transformers via Speculative Decoding](https://goo.gle/4d5994K)。

**效能提升應用**

開發者部署時，推理速度常為首要瓶頸，無論建構程式碼助理、需快速多步規劃的自主 Agent，或完全在裝置端運行的回應式行動應用，每毫秒皆關鍵。搭配 Gemma 4 模型與對應 drafter，可實現：
- **改善回應性**：大幅降低延遲，適用近即時聊天、沉浸式語音應用與 Agentic 工作流程。
- **加速本地開發**：在個人電腦與消費級 GPU 上高速運行 26B MoE 與 31B Dense 模型，支持無縫離線程式碼與 Agentic 工作流程。
- **強化裝置端效能**：在邊緣裝置上最大化 E2B 與 E4B 模型效用，加速輸出生成並節省電池續航。
- **零品質損失**：Gemma 4 主模型保留最終驗證，確保相同頂尖推理與準確度，僅加速交付。

**架構優化細節**

MTP drafters 引入多項架構強化：draft 模型無縫利用目標模型的 activations 並共享其 KV cache，避免重算大型模型已處理的上下文。針對 E2B 與 E4B 邊緣模型，最終 logit 計算成瓶頸，故在 embedder 實作高效叢集技術加速生成。

硬體特定優化包括：26B 混合專家 (MoE) 模型在 Apple Silicon 上批次大小 1 時路由挑戰大，但同時處理多請求（批次大小 4 至 8）可解鎖本地高達 2.2 倍加速；Nvidia A100 增加批次大小亦見類似增益。詳細視覺架構、KV cache 共享與高效 embedders 見 [技術解說文件](https://goo.gle/4d5994K)。

**取得與啟用方式**

Gemma 4 系列 MTP drafters 今日釋出，採用與 Gemma 4 相同的 Apache 2.0 開源授權。可於 [Hugging Face](https://goo.gle/4d5994K)、[Kaggle](https://goo.gle/4d5994K) 下載模型權重，閱讀文件學習與 Gemma 4 搭配 MTP 使用。支援 transformers、MLX、VLLM、SGLang、Ollama 等框架實驗更快推理，或直接在 [Google AI Edge Gallery](https://goo.gle/4d5994K) 上 Android / iOS 試用。

此加速將推動 Gemmaverse 中更多創新建構，Gemma 4 於 2026 年 5 月 5 日公告，展現 Google 在開源模型效率上的持續推進。

## 標籤

LLM, 功能更新, 新產品, Google, Gemma