英伟达开源Nemotron 3 Nano Omni全模态模型：30B参数MoE架构，吞吐量暴增9.2倍

英伟达又放了个大招。当地时间4月28日，英伟达正式发布了 Nemotron 3 Nano Omni 开源全模态推理模型，一口气把视频、音频、图像和文本的多模态推理能力塞进了一个统一的模型里。翻译成大白话就是：以前需要好几个模型串起来干的活儿，现在一个模型全搞定。

核心看点

采用30B-A3B混合MoE（混合专家）架构，每个token只激活3B参数，效率拉满
视频推理吞吐量最高提升9.2倍，多文档推理提升7.4倍
完美替代碎片化的视觉-语音-语言模型链，降低推理成本
模型权重、数据集、训练配方全面开源，已在Hugging Face上线
支持Blackwell GPU NVFP4量化，企业级工作负载吞吐量领先

这款模型最大的亮点在于它的架构创新——采用了Mamba层和Transformer层的混合方案。Mamba层负责提升序列处理和内存效率，Transformer层负责精准推理，内存和计算效率最高可提升4倍。视觉处理部分用上了3D卷积来捕捉帧间运动，音频则基于NVIDIA Parakeet编码器，文本部分保留了强大的中心解码器能力。

对于企业用户来说，这意味着什么？简单说就是：部署成本更低、推理速度更快、多模态一致性更好。以前做个AI Agent需要拼凑多个模型，现在一个模型就能充当”感知-行动”闭环中的多模态子Agent，编排复杂度大幅降低。

英伟达这次不仅开源了模型权重，还把完整的端到端训练配方、评估指南、微调食谱和数据集都一并放出，开发者可以在本地、云端或企业环境中自由定制部署。这波操作，确实是给了开源社区一个实打实的”核弹”。

本文地址：https://www.163264.com/11296

英伟达开源Nemotron 3 Nano Omni全模态模型：30B参数MoE架构，吞吐量暴增9.2倍

相关推荐