英伟达发布 Nemotron 3 Nano Omni 全模态开源模型:30B-A3B MoE架构,吞吐量飙升9.2倍

4月29日消息,英伟达今日正式推出 Nemotron 3 Nano Omni 开源全模态推理模型,这是一款面向企业级 AI Agent 的一体化基础模型,将视频、音频、图像和文本的统一推理集成于单个高效开放式模型中。

核心看点

  • 超强吞吐量:在视频推理任务中,相比其他全模态模型,有效系统容量最高提升约 9.2 倍
  • 全模态统一:视频、音频、图像、文本全部打通,告别碎片化模型链
  • 架构创新:采用 30B‑A3B 混合专家(MoE)架构,结合 Mamba 层与 Transformer 层
  • 完全开放:模型权重、数据集和训练配方全线开源

Nemotron 3 Nano Omni 的推出,意味着英伟达在 AI 开发工具链上又补齐了一块重要拼图。此前,构建多模态 AI Agent 往往需要串联多个单独的视觉、语音、语言模型,不仅编排复杂、推理跳数多,而且跨模态上下文一致性难以保证。而 Nemotron 3 Nano Omni 把这一切压缩进了单个模型中,让 Agent 可以在统一的”感知-行动”循环中处理多模态输入。

核心架构解析

这款模型的架构设计颇有看点。它采用 30B‑A3B 混合 MoE 架构,即总参数量 300 亿,但每次推理只激活 30 亿参数。这种设计使得模型在保持强大能力的同时,实现了极高的推理效率。

具体来看:

  • 视觉采用 3D 卷积捕捉帧间运动信息,配合高效视频采样层压缩视觉 token
  • 音频基于 NVIDIA Parakeet 编码器与专用数据集训练
  • 文本部分以强大的文本模型作为中心解码器,保留完整的语言能力
  • 在 Blackwell GPU 上采用 NVFP4 量化,复杂文档和大批量视频场景下吞吐量领先

实测表现出色

在多项基准测试中,Nemotron 3 Nano Omni 都拿出了亮眼的成绩。文档智能榜单 MMlongbench-Doc 和 OCRBenchV2 上取得同类领先准确率;视频与音频理解基准 WorldSense、DailyOmni、VoiceBench 中也表现优异。在 MediaPerf 行业基准评估中,该模型在所有任务上实现了最高吞吐量,视频标注推理成本最低。

在固定交互延迟阈值下,多文档推理任务有效系统容量最高提升约 7.4 倍。

这款模型已经在 Hugging Face 上开放权重下载,并将以 NVIDIA NIM 微服务形式上线。英伟达还开放了完整的端到端训练配方、部署指南和微调食谱,开发者可以在本地、云端或企业环境自由定制和部署。

开源地址:
Hugging Face:https://huggingface.co/nvidia/Nemotron-3-Nano-Omni

本文地址:https://www.163264.com/11309

(0)
上一篇 10小时前
下一篇 4小时前

相关推荐