# 策展 · X (Twitter) 🔥🔥🔥🔥

> 作者：NVIDIA (@nvidia) · 平台：X (Twitter) · 日期：2026-04-29

> 原始來源：https://x.com/nvidia/status/2049158286461804556

## 中文摘要

# NVIDIA 發布 Nemotron 3 Nano Omni 模型

來源：NVIDIA Blog

作者：Kari Briski

現今許多 AI Agent 系統在處理視覺、語音和語言時，往往需要分別使用不同的模型，這導致在模型間傳遞資料時，不僅耗費時間，還會造成上下文資訊的流失。

NVIDIA 今日推出了 Nemotron 3 Nano Omni，這是一款開放式的多模態模型，將上述能力整合為一，讓 Agent 能夠跨越影片、音訊、圖像和文字，提供更快速、更智慧且具備進階推理能力的反應。

這款同級最佳的模型為企業與開發者提供了一條生產路徑，能打造出更高效、更精準的多模態 AI Agent，並具備完整的部署靈活性與控制權。

Nemotron 3 Nano Omni 為開放式多模態模型樹立了全新的效率標竿，不僅具備領先的準確度與低成本優勢，更在複雜文件智慧、影片與音訊理解等六項評測排行榜中名列前茅。

目前已採用 Nemotron 3 Nano Omni 的 AI 驅動企業包括 Aible、Applied Scientific Intelligence (ASI)、@ekacareHQ、@hcompany_ai 與 Pyler；而 @Amdocs、@Dell、@Docusign、@Infosys、@IQVIA_global、@k_dense_ai、Lila、@Oracle、@PalantirTech、@Quantiphi、@TCS 與 Zefr 等公司也正在評估該模型。

「要打造實用的 Agent，你無法等待數秒鐘讓模型去解讀一個螢幕畫面，」H Company 執行長 Gautier Cloix 表示。「透過以 Nemotron 3 Nano Omni 為基礎進行開發，我們的 Agent 能夠快速解讀全高畫質（Full HD）的螢幕錄影，這在過去是無法實現的。這不僅僅是速度上的提升，更是我們 Agent 在即時感知與互動數位環境方式上的根本性轉變。」

### Nemotron 3 Nano Omni 實現更快速、更精簡的多模態 Agent

試想一個用於客戶支援的 AI Agent，它需要處理螢幕錄影，同時分析上傳的通話音訊並檢查資料日誌；或者是一個負責解析 PDF、試算表、圖表與語音備忘錄的金融業 Agent。現今大多數的 Agentic 系統都是透過獨立的視覺、語音與語言模型來完成這些任務。

這種做法會因為重複的推論過程而增加延遲，導致上下文在不同模態間破碎化，並隨著時間推移增加成本與誤差。

透過將視覺與音訊編碼器整合進其 30B-A3B 的混合專家（Mixture-of-Experts, MoE）架構中，Nemotron 3 Nano Omni 消除了對獨立感知模型的需求，進而提升了大規模推論的效率。使用此模型，AI 系統在保持相同互動性的前提下，吞吐量可達到其他開放式 Omni 模型 9 倍之多，這意味著在不犧牲反應速度的情況下，能降低成本並提升擴充性。

在 Agentic 系統中，Nemotron 3 Nano Omni 可以與專有的雲端模型或其他 NVIDIA Nemotron 開放模型並肩運作——例如用於高頻率執行的 Nemotron 3 Super，或是用於複雜規劃的 Nemotron 3 Ultra——以及其他供應商的專有模型，為電腦操作、文件智慧與影音推理等 Agentic 工作流程提供動力。

- **電腦操作 Agent (Computer use agents)** — Nemotron 3 Nano Omni 為導航圖形使用者介面的 Agent 提供感知迴圈，針對螢幕內容進行推理，並隨時間推移理解使用者介面的狀態。H Company 最新的電腦操作 Agent 採用 Nemotron 3 Nano Omni，使用 1920x1080 像素的原生輸入解析度，實現了高保真的視覺推理。在 OSWorld 基準測試的初步評估中，此整合展現了在導航複雜圖形介面上的顯著飛躍，並充分利用了 Nemotron 3 Nano Omni 處理超高解析度圖像的能力。

- **文件智慧 (Document intelligence)** — 能解讀文件、圖表、表格、螢幕截圖與混合媒體輸入，使 Agent 能夠連貫地針對視覺結構與文字內容進行推理。這對於企業分析與合規工作流程至關重要。

- **音訊與影片理解 (Audio and video understanding)** — 針對客戶服務、研究與監控工作流程，Nemotron 3 Nano Omni 能維持影音上下文，將所說、所見與所記錄的內容連結成單一的推理串流，而非斷裂的摘要。

![](https://pub-75d4fe1e4e80421b9ecb1245a7ae0d1a.r2.dev/curated/1777429543719-iaHHANlDIaMAAH4Qyjpg.jpg)

### 開放、可客製化，隨處皆可部署

Nemotron 3 Nano Omni 以開放權重、資料集與訓練技術的形式發布，讓組織能完全透明地掌控模型的客製化與部署方式。

開發者可以使用 NVIDIA NeMo 等工具進行客製化、評估與針對特定領域使用案例的優化。由於 Nemotron 系列模型是開放的，組織可以在符合法規、主權或資料在地化要求的環境中進行部署。Nemotron 3 系列（包含 Nano、Super 與 Ultra 模型）在過去一年中下載量已超過 5,000 萬次。Omni 將此系列的效能延伸至多模態與 Agentic 領域。

該模型現已於 Hugging Face、OpenRouter 與 build.nvidia.com 上架，作為 NVIDIA NIM 微服務提供，並透過廣大的 NVIDIA 雲端合作夥伴、推論平台與雲端服務供應商生態系統提供支援。

其開放且輕量化的架構，支援從 NVIDIA DGX Spark 與 DGX Station 等本地系統，到資料中心與雲端環境的一致性部署。

請造訪 NVIDIA 技術部落格，獲取有關 Nemotron 3 Nano Omni 使用案例的教學、食譜（Cookbooks）與部署指南。

訂閱 NVIDIA 新聞、加入社群，並在 LinkedIn、Instagram、X 與 Facebook 上追蹤 NVIDIA AI，以掌握 Agentic AI、NVIDIA Nemotron 等最新資訊。

探索自學影片教學與直播。

---

### 概覽

*   **是什麼** - 一個開放式的全模態推理模型，是同類產品中效率最高的開放式多模態模型，具備領先的準確度。
*   **處理內容** - 文字、圖像、音訊、影片、文件、圖表與圖形介面（輸入）；文字（輸出）。
*   **適用對象** - 正在建構快速且可靠的 Agentic 系統，且需要多模態感知子 Agent 的企業與開發者。
*   **運作方式** - 在 Agent 系統中擔任「眼與耳」的角色，與 Nemotron 3 Super 和 Ultra 或其他專有模型並肩運作。
*   **重要性** - 具備領先的多模態準確度，且在保持相同互動性的前提下，吞吐量比其他開放式 Omni 模型高出 9 倍，在不犧牲反應速度的情況下降低成本並提升擴充性。
*   **架構** - 30B-A3B 混合專家模型（MoE），具備 Conv3D、EVS 與 256K context window。
*   **可用性** - 2026 年 4 月 28 日起，透過 Hugging Face、NVIDIA NIM 與 25 個以上的合作夥伴平台提供。

## 標籤

Agent, AIGC, 新產品, 開源專案, VLM, NVIDIA
