# NVIDIA 發布 Nemotron 3 Ultra 550B 提升推理效率 > 📖 本站完整內容索引（documentation index）：[llms.txt](/llms.txt) > 原作者：NVIDIA AI (@NVIDIAAI) · 策展與摘要：EasyVibeCoding · 平台：X (Twitter) · 熱度：🔥 · 日期：2026-06-05 > 原始來源：https://x.com/NVIDIAAI/status/2062521325076299981 ## 證據與延伸閱讀 - [nvidia.com](https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/) - [primeintellect.ai](https://www.primeintellect.ai/blog/nemotron-3) - [huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) ## 中文摘要 NVIDIA 發布 Nemotron 3 Ultra 550B 提升推理效率。

> NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 介紹 Nemotron 3.0 系列最新成員 Nemotron 3 Ultra。 NVIDIA 此次推出的 Nemotron 3 Ultra 是一款具備 550B 參數的 Mixture-of-Experts (MoE) 開放模型，專為長週期運行的 Agent 任務設計。該模型不僅在程式撰寫與深度研究等複雜任務中表現優異，更透過架構創新，實現了比同級開放模型快 5 倍的推論速度，並能降低高達 30% 的複雜 Agent 任務成本。 **核心技術架構** Nemotron 3 Ultra 採用多項創新技術，以解決高容量推理模型在效率與準確度之間的權衡： - **混合 Mamba-Transformer MoE 架構**：結合 Mamba 層以提升長序列處理效率，並透過 Transformer 層確保在長視窗中精確檢索事實。 - **LatentMoE 與多 token 預測 (MTP)**：優化專家路由機制，並透過單次前向傳遞預測多個未來 token，顯著縮短生成時間。 - **NVFP4 量化**：支援在 NVIDIA Hopper、Blackwell 及 Ampere GPU 架構上使用單一檢查點，提升硬體利用率。 - **多教師在線策略蒸餾 (MOPD)**：透過超過 10 個專門的教師模型進行非同步訓練，使模型在不同領域的推理能力能持續迭代與進化。 ![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629890538-cWkAAGJqNjpgnameorig.jpg) > 此圖展示了 Nemotron 3 混合架構的運作流程，結合了 Mamba-2 狀態空間模型與具備權杖壓縮與解壓縮機制的潛在混合專家模型（Latent MoE）。 **Agent 整合與生態支援** 為了讓開發者能快速部署，NVIDIA 將此模型針對主流 Agent harness 進行了優化，並提供完整的開放資源： - **框架相容性**：已針對 `OpenClaw`、`NousResearch Hermes Agent` 及 `LangChain` 等主流框架進行後訓練，確保在規劃、工具呼叫及錯誤恢復等流程中的穩定性。 - **安全性與執行環境**：同步推出 `NVIDIA OpenShell`（安全執行環境）與 `NVIDIA NemoClaw`（開源藍圖），協助開發者在安全的沙盒環境中運行自主 Agent。 - **開放授權**：採用 Linux Foundation 的 `OpenMDW-1.1` 授權，公開模型權重、合成資料及後訓練配方，開發者可透過 [Hugging Face](https://nvda.ws/4v1iBhi) 下載使用。 ![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629892771-rXUAEmz7Bjpgnameorig.jpg) > Nemotron 3 Ultra (550B) 在 Agent 生產力、指令遵循、專業工作任務及長文本（Ruler @1M 達 95%）等多項基準測試中表現優異，為 Agent 任務提供領先的準確度。 **應用場景與擴充** 除了核心的 Ultra 模型，NVIDIA 同步發布了兩款輔助模型以完善 Agent 生態： - **Nemotron 3.5 Content Safety**：一款 4B 參數的防護模型，支援 23 種安全類別與 12 種語言，用於過濾不安全內容。 - **Nemotron 3.5 ASR**：具備多語言支援的語音辨識模型，針對即時語音互動優化，延遲低於 100 毫秒。 ![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1780629920950-gXIAE7bWRjpgnameorig.jpg) > 此架構圖展示了 AI Agent 的運作流程，包含 Context、Observe、Reason 與 Act 等核心循環，以及其與 Prompt、Orchestration、Tools & Skills、Security & Governance 及 Memory 等模組的互動關係與硬體支援。開發者可透過 [NVIDIA NIM](https://nvda.ws/4adkn6J) 微服務將模型部署於任何環境，或利用官方提供的 `NeMo` 函式庫進行 LoRA 微調與強化學習，以適應特定領域的專業需求。

> 使用者透過 OpenCode 介面指令，要求 AI 產生一個具備物理模擬效果的牛頓擺網頁程式。 ## 媒體內容 **Nemotron 3 Ultra (550B) 在 Agent 生產力、指令遵循、專業工作任務及長文本（Ruler @1M 達 95%）等多項基準測試中表現優異，為 Agent 任務提供領先的準確度。** **數據表** | | Nemotron 3 Ultra (550B) | GLM 5.1 (744B) | Kimi K2.6 (1T) | Qwen3.5 (397B) | | --- | --- | --- | --- | --- | | Agent Productivity (PinchBench) | 91% | 84% | 91% | 89% | | Long-horizon Planning (EnterpriseOps-Gym) | 33% | 40% | 29% | 30% | | Coding (Terminal-Bench 2.0) | 54% | 64% | 67% | 53% | | Instruction Following (IFBench) | 82% | 77% | 74% | 78% | | Knowledge Work (GDPVal-AA) | 1,448 | 1,594 | 1,508 | 1,192 | | Professional Work Tasks (ProfBench (Search)) | 56% | 46% | 56% | 53% | | Long Context (Ruler @1M) | 95% | N/A (max 256K) | N/A (max 256K) | 90% | ## 標籤新產品, LLM, 產業趨勢, NVIDIA