英伟达发布 Nemotron 3 Nano Omni 全模态开源模型：30B-A3B MoE架构，吞吐量飙升9.2倍

4月29日消息，英伟达今日正式推出 Nemotron 3 Nano Omni 开源全模态推理模型，这是一款面向企业级 AI Agent 的一体化基础模型，将视频、音频、图像和文本的统一推理集成于单个高效开放式模型中。

Table of Contents

核心看点

超强吞吐量：在视频推理任务中，相比其他全模态模型，有效系统容量最高提升约 9.2 倍
全模态统一：视频、音频、图像、文本全部打通，告别碎片化模型链
架构创新：采用 30B‑A3B 混合专家（MoE）架构，结合 Mamba 层与 Transformer 层
完全开放：模型权重、数据集和训练配方全线开源

Nemotron 3 Nano Omni 的推出，意味着英伟达在 AI 开发工具链上又补齐了一块重要拼图。此前，构建多模态 AI Agent 往往需要串联多个单独的视觉、语音、语言模型，不仅编排复杂、推理跳数多，而且跨模态上下文一致性难以保证。而 Nemotron 3 Nano Omni 把这一切压缩进了单个模型中，让 Agent 可以在统一的”感知-行动”循环中处理多模态输入。

核心架构解析

这款模型的架构设计颇有看点。它采用 30B‑A3B 混合 MoE 架构，即总参数量 300 亿，但每次推理只激活 30 亿参数。这种设计使得模型在保持强大能力的同时，实现了极高的推理效率。

具体来看：

视觉采用 3D 卷积捕捉帧间运动信息，配合高效视频采样层压缩视觉 token
音频基于 NVIDIA Parakeet 编码器与专用数据集训练
文本部分以强大的文本模型作为中心解码器，保留完整的语言能力
在 Blackwell GPU 上采用 NVFP4 量化，复杂文档和大批量视频场景下吞吐量领先

实测表现出色

在多项基准测试中，Nemotron 3 Nano Omni 都拿出了亮眼的成绩。文档智能榜单 MMlongbench-Doc 和 OCRBenchV2 上取得同类领先准确率；视频与音频理解基准 WorldSense、DailyOmni、VoiceBench 中也表现优异。在 MediaPerf 行业基准评估中，该模型在所有任务上实现了最高吞吐量，视频标注推理成本最低。

在固定交互延迟阈值下，多文档推理任务有效系统容量最高提升约 7.4 倍。

这款模型已经在 Hugging Face 上开放权重下载，并将以 NVIDIA NIM 微服务形式上线。英伟达还开放了完整的端到端训练配方、部署指南和微调食谱，开发者可以在本地、云端或企业环境自由定制和部署。

开源地址：
Hugging Face：https://huggingface.co/nvidia/Nemotron-3-Nano-Omni

本文地址：https://www.163264.com/11309

英伟达发布 Nemotron 3 Nano Omni 全模态开源模型：30B-A3B MoE架构，吞吐量飙升9.2倍

核心看点

核心架构解析

实测表现出色

相关推荐