英伟达又放了个大招。当地时间4月28日,英伟达正式发布了 Nemotron 3 Nano Omni 开源全模态推理模型,一口气把视频、音频、图像和文本的多模态推理能力塞进了一个统一的模型里。翻译成大白话就是:以前需要好几个模型串起来干的活儿,现在一个模型全搞定。
核心看点
- 采用30B-A3B混合MoE(混合专家)架构,每个token只激活3B参数,效率拉满
- 视频推理吞吐量最高提升9.2倍,多文档推理提升7.4倍
- 完美替代碎片化的视觉-语音-语言模型链,降低推理成本
- 模型权重、数据集、训练配方全面开源,已在Hugging Face上线
- 支持Blackwell GPU NVFP4量化,企业级工作负载吞吐量领先
这款模型最大的亮点在于它的架构创新——采用了Mamba层和Transformer层的混合方案。Mamba层负责提升序列处理和内存效率,Transformer层负责精准推理,内存和计算效率最高可提升4倍。视觉处理部分用上了3D卷积来捕捉帧间运动,音频则基于NVIDIA Parakeet编码器,文本部分保留了强大的中心解码器能力。
对于企业用户来说,这意味着什么?简单说就是:部署成本更低、推理速度更快、多模态一致性更好。以前做个AI Agent需要拼凑多个模型,现在一个模型就能充当”感知-行动”闭环中的多模态子Agent,编排复杂度大幅降低。
英伟达这次不仅开源了模型权重,还把完整的端到端训练配方、评估指南、微调食谱和数据集都一并放出,开发者可以在本地、云端或企业环境中自由定制部署。这波操作,确实是给了开源社区一个实打实的”核弹”。
本文地址:https://www.163264.com/11296

