# Google 推出 DiffusionGemma 實現同步生成技術

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 原作者：Google (@Google) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-06-11

> 原始來源：https://x.com/Google/status/2064741293163418032

## 中文摘要

Google 推出 DiffusionGemma 實現同步生成技術。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/239ed0cba608b27b.jpg)
> 這是一張以「DiffusionGemma」為標題的技術概念宣傳圖，背景呈現模糊的程式碼或指令介面。

**核心運作機制**
傳統大型語言模型（LLM）多採用自回歸（Autoregressive）方式，必須等待前一個 token 生成後才能預測下一個，導致生成速度受限。DiffusionGemma 則透過「擴散（Diffusion）」技術，將生成過程視為從雜訊中逐步精煉的過程，能同時處理並修正整塊文字區塊。根據官方演示的「Noisy Canvas」去噪過程，模型在 6 個步驟內即可從隨機詞彙組合演化為邏輯完整的句子（例如從初始雜訊最終產出「The LLM picks words all at once」），這種非線性的生成模式大幅降低了等待時間。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1781138845734-8ll3w8b4.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/605da50552653f22.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這段動畫演示了大型語言模型（LLM）透過「去噪（Denoising）」過程，逐步生成連貫語句的運作原理。

**技術優勢與應用場景**
DiffusionGemma 專為需要高互動性與低延遲的本地工作流程設計，其關鍵特性包括：
- **極致速度**：在專用 GPU 上每秒可生成超過 1,000 個 token，速度提升達 4 倍。
- **硬體友善**：模型架構輕量化，可在 18GB 的消費級顯示卡上順暢執行。
- **智慧編輯**：由於能一次處理大量資訊，模型在填空、程式碼格式化以及即時錯誤修正方面表現優異，適合用於需要快速迭代的開發場景。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/98c2dd85fa83dbeb.jpg)
> DiffusionGemma 26B A4B 展現出高達 4 倍的文字生成速度（超過 1,000 tok/s），同時在平均 GPQA-Diamond 與 LCB v6 基準測試中保持具競爭力的智能表現（約 69%）。

**模型規格與生態整合**
作為 Google Gemma 4 家族的延伸，DiffusionGemma 是一個 26B 參數的混合專家模型（MoE），並以 Apache 2.0 授權開源。Google 旨在透過此模型協助開發者解決本地推論中的延遲瓶頸。目前該模型已整合至主流開發工具中，開發者可透過以下方式進行部署與實驗：
- **推論支援**：支援 `MLX`、`vLLM`（由 Red Hat 支援整合）以及 `Hugging Face Transformers`。
- **微調工具**：官方提供使用 `Hackable Diffusion`（基於 JAX 的模組化工具箱）的微調教學，同時也支援 `Unsloth` 與 `NVIDIA NeMo`。
- **未來支援**：官方表示 `llama.cpp` 的正式支援即將推出。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/acc7707c951760ad.jpg)
> 實驗性開放模型 DiffusionGemma 26B A4B 在輸出速度上比 Gemma 4 26B A4B 快上近 4 倍（達 1107 tok/s），同時在多項學術與代碼基準測試中保持競爭力。

開發者可前往 [Hugging Face](https://huggingface.co) 下載模型權重，並透過 [Google 官方說明頁面](http://goo.gle/3Sy0Is7) 深入了解該實驗性專案的技術細節。

## 媒體內容

**這段動畫演示了大型語言模型（LLM）透過「去噪（Denoising）」過程，逐步生成連貫語句的運作原理。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）初始狀態顯示 Noisy Canvas 詞彙。
2. （00:01）開始執行 Denoising Step 1。
3. （00:02）執行 Step 2。
4. （00:03）執行 Step 3 與 Step 4。
5. （00:04）執行 Step 5 與 Step 6。
6. （00:05）顯示最終 Denoised Canvas 結果。

**DiffusionGemma 26B A4B 展現出高達 4 倍的文字生成速度（超過 1,000 tok/s），同時在平均 GPQA-Diamond 與 LCB v6 基準測試中保持具競爭力的智能表現（約 69%）。**

**數據表**

| 項目 | X | Y |
| --- | --- | --- |
| Gemma 4 31B + MTP | 175 tok/s | 82% |
| Gemma 4 26B A4B + MTP | 310 tok/s | 80% |
| Gemma 4 12B + MTP | 440 tok/s | 74% |
| DiffusionGemma 26B A4B | 1120 tok/s | 69% |

**實驗性開放模型 DiffusionGemma 26B A4B 在輸出速度上比 Gemma 4 26B A4B 快上近 4 倍（達 1107 tok/s），同時在多項學術與代碼基準測試中保持競爭力。**

**數據表**

|   | Output Speed (tok/s) | MMMLU | MMLU Pro | AIME 2026 | LiveCodeBench v6 | GPQA Diamond | t2-bench |
| --- | --- | --- | --- | --- | --- | --- | --- |
| Diffusion Gemma 26B A4B | 1107 | 81.5% | 77.6% | 69.1% | 69.1% | 73.2% | 56.2% |
| Gemma 4 26B A4B | 303 | 86.3% | 82.6% | 88.3% | 77.1% | 82.3% | 68.2% |

## 標籤

新產品, AIGC, 研究論文, Google, Gemma, DiffusionGemma