英伟达发布Nemotron 3 Nano Omni全模态模型：30B-A3B MoE架构，推理吞吐量暴涨9倍

核心看点

全模态统一：Nemotron 3 Nano Omni将视频、音频、图像和文本推理集成于单一模型，替代传统碎片化的视觉-语音-语言模型链
30B-A3B混合MoE架构：结合Mamba层（提升序列与内存效率）和Transformer层（精准推理），内存和计算效率最高提升4倍
吞吐量9倍领先：在视频推理任务中，相比其他开源全模态模型，有效系统容量最高提升约9.2倍；多文档推理任务提升约7.4倍
完全开源：模型权重、数据集和训练配方全部开放，开发者可在本地、云端或企业环境中自由定制部署

当地时间4月28日，英伟达正式发布Nemotron 3 Nano Omni，一款面向企业AI智能体的开源全模态推理模型。这标志着英伟达在端侧多模态AI领域迈出了关键一步。

该模型的核心突破在于：它将视频、音频、图像和文本的推理能力统一在一个模型中，不再需要像过去那样拼凑多个专用模型来处理不同模态的数据。在智能体系统中，它可以充当多模态感知与上下文子Agent，让智能体在单个共享的感知-行动循环中同时处理视觉、音频和文本输入，大幅降低推理跳数和编排复杂度。

在性能表现上，Nemotron 3 Nano Omni在多项权威基准测试中取得了领先成绩。文档智能榜单（如MMlongbench-Doc和OCRBenchV2）上，它达到了同类模型最高准确率；在视频与音频理解基准（WorldSense、DailyOmni、VoiceBench）中也表现出色。行业基准MediaPerf显示，在所有任务中该模型的推理成本最低。

架构设计方面，Nemotron 3 Nano Omni采用3D卷积捕捉帧间运动进行视觉处理，配合高效的视频采样层将高密度视觉token压缩为LLM可处理的精简集合；音频部分基于NVIDIA Parakeet编码器与专用数据集；文本部分以强大的文本模型作为中心解码器。训练过程涵盖约1270亿跨模态token的适配器训练、多阶段监督微调及超过230万次环境rollout的强化训练。

英伟达强调，该模型在Blackwell GPU上采用NVFP4量化时，处理复杂文档、长时推理和大批量视频的企业级工作负载时，吞吐量在开源全模态模型中居于领先地位。模型权重已在Hugging Face上开放下载，并将作为NVIDIA NIM微服务上线。

这无疑是对AI Agent领域的一剂强心针。当多模态推理不再需要拆解为多个步骤和多个模型时，企业级AI应用的部署门槛和成本都将大幅降低。

模型链接：Hugging Face – NVIDIA Nemotron

本文地址：https://www.163264.com/11331

英伟达发布Nemotron 3 Nano Omni全模态模型：30B-A3B MoE架构，推理吞吐量暴涨9倍

核心看点

相关推荐