# 策展 · X (Twitter) 🔥🔥🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：NVIDIA AI (@NVIDIAAI) · 平台：X (Twitter) · 日期：2026-07-02

> 原始來源：https://x.com/NVIDIAAI/status/2072394812301480067

## 中文摘要

NVIDIA 推出 Nemotron-Labs-TwoTower 模型，啟用雙塔平行生成，達到 2.42 倍推論速度。

**核心架構與運作機制**
NVIDIA Research 發布的「Nemotron-Labs-TwoTower」模型，是基於「Nemotron-3-Nano-30B-A3B」骨幹所開發的區塊式自回歸擴散語言模型。該模型將傳統單一模型的任務拆分為兩個獨立的塔：
- **Context Tower（AR/Context）**：保持凍結狀態，負責處理乾淨的 Prompt 與已提交的 token，並提供 KV 快取與 Mamba-2 狀態。
- **Denoiser Tower（Diffusion/Denoiser）**：為可訓練塔，透過遮罩擴散（mask diffusion）機制，以區塊為單位進行平行去噪與生成。

**效能表現與技術細節**
根據 NVIDIA 的測試數據，該模型在維持原始自回歸基準模型 98.7% 品質的前提下，達成了 2.42 倍的實際生成吞吐量。其運作流程如下：

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1782969717577-ret6m6si.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/66137f8bb4df5238.jpg" controls playsinline preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 這張圖表展示了結合 AR Context Tower 與 Diffusion / Denoiser Tower 的運作流程，包含 AR Prefill、Diffusion Denoising 以及 AR Context Update 三個階段。

1. **AR Prefill**：Context Tower 先對輸入序列進行編碼，並在每一層輸出注意力 KV 快取與 Mamba-2 邊界狀態。
2. **Diffusion Denoising**：Denoiser Tower 針對區塊內的 `[MASK]` token 進行多次迭代去噪。過程中透過雙向區塊內注意力（bidirectional in-block attention）、層對齊的交叉注意力（cross-attention）與 Context Tower 互動，並由 Context Tower 的狀態進行種子初始化。
3. **AR Context Update**：當區塊生成完成並確認後，將結果提交並更新 Context Tower 的 KV 與 Mamba 快取，隨後進入下一個區塊的處理。

**模型取得與應用**
此模型已於 [Hugging Face](https://huggingface.co/nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16) 開放下載，並附帶相關研究論文 [arXiv 2606.26493](https://arxiv.org/abs/2606.26493)。該專案採用 NVIDIA Nemotron 開放模型授權協議，適用於商業用途，用來為開發專業 AI Agent 提供更具效率的解決方案。

## 媒體內容

**這張圖表展示了結合 AR Context Tower 與 Diffusion / Denoiser Tower 的運作流程，包含 AR Prefill、Diffusion Denoising 以及 AR Context Update 三個階段。**

**影片中的 Prompt 與操作**

操作步驟：

1. （00:00）AR Prefill 階段處理輸入序列。
2. （00:03）Diffusion Denoising 階段處理 [M] 標記並與 AR Tower 交互。
3. （00:09）AR Context Update 階段更新上下文資訊。

## 標籤

研究論文, 新產品, LLM, NVIDIA