英伟达发布 Nemotron 3 Nano Omni 全模态模型:30B-A3B 混合 MoE,吞吐量飙升 9.2 倍

英伟达近日宣布推出 Nemotron 3 Nano Omni,一款面向企业级 AI Agent 平台的开源全模态推理模型,可将视频、音频、图像和文本的多模态推理集成于单一模型中,替代传统碎片化的多模型链方案。

核心看点

  • 30B-A3B 混合 MoE 架构:结合 Mamba 层(高效序列处理)与 Transformer 层(精准推理),计算效率最高提升 4 倍
  • 吞吐量碾压级表现:视频推理任务有效系统容量最高提升约 9.2 倍,文档推理提升约 7.4 倍
  • 全模态统一处理:一个模型搞定视频理解、语音交互、文档分析和文本推理,减少编排复杂度
  • 完全开源:模型权重、数据集和训练配方全部开放,可在本地、云端或企业环境定制部署
  • 支持 NVFP4 量化:在 Blackwell GPU 上量化后,企业级长时推理吞吐全面领先

Nemotron 3 Nano Omni 的设计思路很清晰:当前的 AI Agent 系统通常需要串联一套视觉模型 + 语音模型 + 语言模型的”拼盘方案”,推理跳数多、编排复杂、延迟高。英伟达想用一个统一的全模态底模来替代这套组合,让 AI Agent 在”感知-行动”的单循环中同时处理视觉、音频和文本输入。

技术层面有几个亮点值得单独拿出来说:视觉部分采用 3D 卷积捕捉帧间运动信息,并通过高效视频采样层将高密度视觉 token 压缩为 LLM 可处理的轻量集合;音频部分基于 NVIDIA Parakeet 编码器;文本部分则以强大的文本模型作为中心解码器,保留了基础模型的语言能力。

评测数据也相当能打:在文档智能榜单 MMlongbench-Doc 和 OCRBenchV2 上取得同类领先准确率;在 WorldSense、DailyOmni 等多模态理解基准上同样表现优异。行业基准 MediaPerf 的测试显示,该模型在所有视频推理任务中实现了最高吞吐量和最低推理成本。

模型权重已在 Hugging Face 上线,并将以 NVIDIA NIM 微服务的形式提供。对于正在构建多模态 Agent 的团队来说,这是一个值得认真考察的开源选项。

本文地址:https://www.163264.com/11327

(0)
上一篇 5小时前
下一篇 5小时前

相关推荐