英伟达发布Nemotron 3 Nano Omni全模态模型:30B-A3B MoE架构,推理吞吐量暴涨9倍

核心看点

  • 模态统一:Nemotron 3 Nano Omni将视频、音频、图像和文本推理集成于单一模型,替代传统碎片化的视觉-语音-语言模型链
  • 30B-A3B混合MoE架构:结合Mamba层(提升序列与内存效率)和Transformer层(精准推理),内存和计算效率最高提升4倍
  • 吞吐量9倍领先:在视频推理任务中,相比其他开源全模态模型,有效系统容量最高提升约9.2倍;多文档推理任务提升约7.4倍
  • 完全开源:模型权重、数据集和训练配方全部开放,开发者可在本地、云端或企业环境中自由定制部署

当地时间4月28日,英伟达正式发布Nemotron 3 Nano Omni,一款面向企业AI智能体的开源全模态推理模型。这标志着英伟达在端侧多模态AI领域迈出了关键一步。

该模型的核心突破在于:它将视频、音频、图像和文本的推理能力统一在一个模型中,不再需要像过去那样拼凑多个专用模型来处理不同模态的数据。在智能体系统中,它可以充当多模态感知与上下文子Agent,让智能体在单个共享的感知-行动循环中同时处理视觉、音频和文本输入,大幅降低推理跳数和编排复杂度。

在性能表现上,Nemotron 3 Nano Omni在多项权威基准测试中取得了领先成绩。文档智能榜单(如MMlongbench-Doc和OCRBenchV2)上,它达到了同类模型最高准确率;在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中也表现出色。行业基准MediaPerf显示,在所有任务中该模型的推理成本最低。

架构设计方面,Nemotron 3 Nano Omni采用3D卷积捕捉帧间运动进行视觉处理,配合高效的视频采样层将高密度视觉token压缩为LLM可处理的精简集合;音频部分基于NVIDIA Parakeet编码器与专用数据集;文本部分以强大的文本模型作为中心解码器。训练过程涵盖约1270亿跨模态token的适配器训练、多阶段监督微调及超过230万次环境rollout的强化训练。

英伟达强调,该模型在Blackwell GPU上采用NVFP4量化时,处理复杂文档、长时推理和大批量视频的企业级工作负载时,吞吐量在开源全模态模型中居于领先地位。模型权重已在Hugging Face上开放下载,并将作为NVIDIA NIM微服务上线。

这无疑是对AI Agent领域的一剂强心针。当多模态推理不再需要拆解为多个步骤和多个模型时,企业级AI应用的部署门槛和成本都将大幅降低。

模型链接:Hugging Face – NVIDIA Nemotron

本文地址:https://www.163264.com/11331

(0)
上一篇 17小时前
下一篇 10小时前

相关推荐