# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 作者：Google Gemma (@googlegemma) · 平台：X (Twitter) · 日期：2026-05-08

> 原始來源：https://x.com/googlegemma/status/2052468624657654194

## 中文摘要

Gemma 4 透過多 token 預測推手實現最高 3 倍加速，直接在手機上運行。

Google 推出 Gemma 4 系列的多 token 預測（MTP）推手，利用推測解碼架構，在不損害輸出品質或推理邏輯下，提供最高 3 倍推理加速。Gemma 4 僅推出數週即累積超過 6000 萬次下載，展現前所未有的每參數智慧效能，如今進一步提升效率，適用於開發者工作站、行動裝置與雲端。

**推測解碼原理**

標準大型語言模型（LLM）推理受記憶體頻寬限制，處理器花費大部分時間將數十億參數從 VRAM 移至運算單元，只為產生單一 token，導致運算資源閒置與高延遲，尤其在消費級硬體上更明顯。推測解碼將 token 產生與驗證分離，搭配大型目標模型（如 Gemma 4 31B）與輕量推手（MTP 模型），利用閒置運算在目標模型產生單 token 的時間內，預測多個未來 token，目標模型再平行驗證所有建議 token。

標準自迴歸生成每次僅產生一個 token，對明顯延續（如「Actions speak louder than…」後預測「words」）與複雜邏輯謎題投入相同運算。MTP 透過推測解碼緩解此低效，源自 Google 研究者論文 [Fast Inference from Transformers via Speculative Decoding](https://arxiv.org/abs/2211.17192)（原文未直接連結，但技術源頭）。若目標模型同意草稿，即在單次前向傳遞接受整個序列，並額外產生一個 token，讓應用在通常單 token 時間內輸出完整序列加一 token。

**效能提升應用**

開發者將 Gemma 4 模型搭配對應推手，可實現：
- 改善回應性：大幅降低延遲，適用於近即時聊天、沉浸式語音應用與 Agentic 工作流程。
- 加速本地開發：在個人電腦與消費級 GPU 上高速運行 26B MoE 與 31B Dense 模型，支持無縫離線程式撰寫與 Agentic 工作流程。
- 強化裝置端效能：最大化 E2B 與 E4B 邊緣模型效用，加速輸出生成並節省電池續航。
- 零品質損失：Gemma 4 主模型保留最終驗證，確保相同頂尖推理與準確度，僅加速交付。

**架構優化細節**

MTP 推手為達極速與精準，引入多項架構強化：推手模型無縫利用目標模型的啟用值並共享其 KV cache，避免重算大型模型已處理的脈絡。對 E2B 與 E4B 邊緣模型，最終 logit 計算成瓶頸，故在 embedder 實作高效叢集技術加速生成。

硬體特定優化包括：26B 混合專家（MoE）模型在 Apple Silicon 上批次大小 1 時路由挑戰大，但同時處理多請求（批次大小 4 至 8）可解鎖本地最高 ~2.2 倍加速；Nvidia A100 增加批次大小亦見類似增益。Google 發布深入技術解說，剖析視覺架構、KV cache 共享與高效 embedder（詳細文件見 [官方部落格](https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/)）。

**起步指南**

MTP 推手與 Gemma 4 同採 Apache 2.0 開源授權，即日可用。閱讀文件學習如何搭配 Gemma 4 使用，可從 Hugging Face、Kaggle 下載模型權重，立即以 transformers、MLX、VLLM、SGLang 或 Ollama 實驗加速推理，或直接在 [Google AI Edge Gallery](https://edgegallery.google/) 上 Android 或 iOS 試用。

此加速將推動 Gemmaverse 中更多創新建置，從邊緣裝置到工作站解鎖更快人工智慧。

## 標籤

LLM, 功能更新, 新產品, Android, Google, Gemma