# 策展 · X (Twitter) 🔥🔥🔥

> 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt)

> 作者：NVIDIA AI (@NVIDIAAI) · 平台：X (Twitter) · 日期：2026-06-05

> 原始來源：https://x.com/NVIDIAAI/status/2062521325076299981

## 中文摘要

NVIDIA 發布 Nemotron 3 Ultra 550B 提升推理效率。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629888219-0mitt94g.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629890368-diaHJMNtoWMAELAytpng.png" controls preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 介紹 Nemotron 3.0 系列最新成員 Nemotron 3 Ultra。

NVIDIA 此次推出的 Nemotron 3 Ultra 是一款具備 550B 參數的 Mixture-of-Experts (MoE) 開放模型，專為長週期運行的 Agent 任務設計。該模型不僅在程式撰寫與深度研究等複雜任務中表現優異，更透過架構創新，實現了比同級開放模型快 5 倍的推論速度，並能降低高達 30% 的複雜 Agent 任務成本。

**核心技術架構**
Nemotron 3 Ultra 採用多項創新技術，以解決高容量推理模型在效率與準確度之間的權衡：
- **混合 Mamba-Transformer MoE 架構**：結合 Mamba 層以提升長序列處理效率，並透過 Transformer 層確保在長視窗中精確檢索事實。
- **LatentMoE 與多 token 預測 (MTP)**：優化專家路由機制，並透過單次前向傳遞預測多個未來 token，顯著縮短生成時間。
- **NVFP4 量化**：支援在 NVIDIA Hopper、Blackwell 及 Ampere GPU 架構上使用單一檢查點，提升硬體利用率。
- **多教師在線策略蒸餾 (MOPD)**：透過超過 10 個專門的教師模型進行非同步訓練，使模型在不同領域的推理能力能持續迭代與進化。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629890538-cWkAAGJqNjpgnameorig.jpg)
> 此圖展示了 Nemotron 3 混合架構的運作流程，結合了 Mamba-2 狀態空間模型與具備權杖壓縮與解壓縮機制的潛在混合專家模型（Latent MoE）。

**Agent 整合與生態支援**
為了讓開發者能快速部署，NVIDIA 將此模型針對主流 Agent harness 進行了優化，並提供完整的開放資源：
- **框架相容性**：已針對 `OpenClaw`、`NousResearch Hermes Agent` 及 `LangChain` 等主流框架進行後訓練，確保在規劃、工具呼叫及錯誤恢復等流程中的穩定性。
- **安全性與執行環境**：同步推出 `NVIDIA OpenShell`（安全執行環境）與 `NVIDIA NemoClaw`（開源藍圖），協助開發者在安全的沙盒環境中運行自主 Agent。
- **開放授權**：採用 Linux Foundation 的 `OpenMDW-1.1` 授權，公開模型權重、合成資料及後訓練配方，開發者可透過 [Hugging Face](https://nvda.ws/4v1iBhi) 下載使用。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629892771-rXUAEmz7Bjpgnameorig.jpg)
> Nemotron 3 Ultra (550B) 在 Agent 生產力、指令遵循、專業工作任務及長文本（Ruler @1M 達 95%）等多項基準測試中表現優異，為 Agent 任務提供領先的準確度。

**應用場景與擴充**
除了核心的 Ultra 模型，NVIDIA 同步發布了兩款輔助模型以完善 Agent 生態：
- **Nemotron 3.5 Content Safety**：一款 4B 參數的防護模型，支援 23 種安全類別與 12 種語言，用於過濾不安全內容。
- **Nemotron 3.5 ASR**：具備多語言支援的語音辨識模型，針對即時語音互動優化，延遲低於 100 毫秒。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629920950-gXIAE7bWRjpgnameorig.jpg)
> 此架構圖展示了 AI Agent 的運作流程，包含 Context、Observe、Reason 與 Act 等核心循環，以及其與 Prompt、Orchestration、Tools & Skills、Security & Governance 及 Memory 等模組的互動關係與硬體支援。

開發者可透過 [NVIDIA NIM](https://nvda.ws/4adkn6J) 微服務將模型部署於任何環境，或利用官方提供的 `NeMo` 函式庫進行 LoRA 微調與強化學習，以適應特定領域的專業需求。

<video src="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629920225-ooqgqymv.mp4" poster="https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629920789-diaHJMQjjXYAAoMY0jpg.jpg" controls preload="metadata" style="max-width:100%;height:auto;display:block;margin:1rem 0"></video>
> 使用者透過 OpenCode 介面指令，要求 AI 產生一個具備物理模擬效果的牛頓擺網頁程式。

## 標籤

新產品, LLM, 產業趨勢, NVIDIA
