# 策展 · X (Twitter) 🔥🔥

> 作者：NVIDIA AI (@NVIDIAAI) · 平台：X (Twitter) · 日期：2026-05-01

> 原始來源：https://x.com/NVIDIAAI/status/2050304249699950739

## 中文摘要

NVIDIA研究透過NeMo-RL整合推測解碼，解決RL後訓練滾動瓶頸，实现8B規模1.8倍吞吐量提升及235B規模2.5倍端到端加速。

NVIDIA AI團隊指出，前沿語言模型的RL後訓練正面臨自迴歸滾動生成瓶頸，此新論文提出在「NeMo-RL」中整合「vLLM」後端的推測解碼，作為無損加速機制，保留目標模型輸出分佈，實現顯著效能提升。

**RL後訓練瓶頸與推測解碼解決方案**

RL後訓練正面臨自迴歸滾動生成的系統性瓶頸，許多既有效率方法需改變滾動或優化機制，如離策略執行、重播或低精度生成，導致分佈偏移。

- 論文提出推測解碼作為無損加速原語，完整保留目標模型輸出分佈。
- 在「NeMo-RL」中實現推測解碼，支援同步與非同步管道，並在RL滾動期間啟用推測。
- 適用多種推測機制，包括預訓練MTP頭、小型外部草稿模型，甚至傳統RL階段後才應用的「Eagle3」技術，提供部署SOTA推測解碼於RL訓練的路徑。

**效能數據與模擬投影**

在8B規模的推理後訓練工作負載下，同步RL環境中推測解碼將滾動吞吐量提升1.8倍。

透過高保真效能模擬器，結合推測解碼與非同步RL，在235B規模預測端到端訓練加速達2.5倍，此為系統整合推測解碼的核心貢獻。

**NeMo-RL程式庫特性**

「NeMo-RL」為NVIDIA「NeMo Framework」下的開源後訓練程式庫，專為多模態模型（LLMs、VLMs等）簡化與擴展RL方法，強調彈性、可重現性與規模化，適用小規模實驗至多GPU、多節點大規模部署。

- **模組化設計**：易於整合與自訂。
- **資源管理**：使用Ray實現跨硬體配置的可擴展部署。
- **研究友好**：提供純PyTorch路徑，快速原型開發。
- **高效能**：整合「Megatron Core」，支援多種平行技術，處理大型模型與長上下文。
- **相容性**：無縫整合「Hugging Face」，利用廣泛預訓練模型與工具。
- **文件支援**：詳細且使用者友善，含實務範例。

**訓練與生成後端支援**

「NeMo-RL」提供多種後端，適應不同模型規模與硬體。

**訓練後端**：
- 「DTensor」：PyTorch新一代分散式訓練，提升記憶體效率，支援PyTorch原生TP、SP、PP、CP及FSDP2。
- 「Megatron」：NVIDIA高效能訓練框架，擴展至大型模型，支援6D平行。

**生成/滾動後端**：
- 「vLLM」：高吞吐量與記憶體高效的推理與服務引擎。
- 「Megatron」：高效能原生推理後端，避免訓練與推理間權重轉換。

**快速入門指南**

論文附程式碼連結，提供「NeMo-RL」快速啟動，支援原生PyTorch「DTensor」或「Megatron Core」。

**原生PyTorch (DTensor)**：
```
git clone git@github.com:NVIDIA-NeMo/RL.git nemo-rl --recursive
cd nemo-rl
uv venv
uv run python examples/run_grpo.py
```

**Megatron Core**：
```
git clone git@github.com:NVIDIA-NeMo/RL.git nemo-rl --recursive
cd nemo-rl
uv venv
uv run examples/run_grpo.py \
--config examples/configs/grpo_math_1B_megatron.yaml
```

此摘要忠實反映NVIDIA研究論文（2026年4月29日發布，作者包括Hayate Iso、Tiyasa Mitra等）與官方推文立場，強調推測解碼對RL滾動的無損加速潛力，解決產業瓶頸，並提供「NeMo-RL」實作細節，無淡化任何技術挑戰或效能主張。

## 標籤

研究論文, LLM, 自動化, NVIDIA, vLLM