英伟达发布 Nemotron 3 Nano Omni 全模态模型：30B-A3B 混合 MoE，吞吐量飙升 9.2 倍

英伟达近日宣布推出 Nemotron 3 Nano Omni，一款面向企业级 AI Agent 平台的开源全模态推理模型，可将视频、音频、图像和文本的多模态推理集成于单一模型中，替代传统碎片化的多模型链方案。

核心看点

30B-A3B 混合 MoE 架构：结合 Mamba 层（高效序列处理）与 Transformer 层（精准推理），计算效率最高提升 4 倍
吞吐量碾压级表现：视频推理任务有效系统容量最高提升约 9.2 倍，文档推理提升约 7.4 倍
全模态统一处理：一个模型搞定视频理解、语音交互、文档分析和文本推理，减少编排复杂度
完全开源：模型权重、数据集和训练配方全部开放，可在本地、云端或企业环境定制部署
支持 NVFP4 量化：在 Blackwell GPU 上量化后，企业级长时推理吞吐全面领先

Nemotron 3 Nano Omni 的设计思路很清晰：当前的 AI Agent 系统通常需要串联一套视觉模型 + 语音模型 + 语言模型的”拼盘方案”，推理跳数多、编排复杂、延迟高。英伟达想用一个统一的全模态底模来替代这套组合，让 AI Agent 在”感知-行动”的单循环中同时处理视觉、音频和文本输入。

技术层面有几个亮点值得单独拿出来说：视觉部分采用 3D 卷积捕捉帧间运动信息，并通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的轻量集合；音频部分基于 NVIDIA Parakeet 编码器；文本部分则以强大的文本模型作为中心解码器，保留了基础模型的语言能力。

评测数据也相当能打：在文档智能榜单 MMlongbench-Doc 和 OCRBenchV2 上取得同类领先准确率；在 WorldSense、DailyOmni 等多模态理解基准上同样表现优异。行业基准 MediaPerf 的测试显示，该模型在所有视频推理任务中实现了最高吞吐量和最低推理成本。

模型权重已在 Hugging Face 上线，并将以 NVIDIA NIM 微服务的形式提供。对于正在构建多模态 Agent 的团队来说，这是一个值得认真考察的开源选项。

本文地址：https://www.163264.com/11327

英伟达发布 Nemotron 3 Nano Omni 全模态模型：30B-A3B 混合 MoE，吞吐量飙升 9.2 倍

核心看点

相关推荐