英伟达发布Cosmos 3:全球首款全开源全模态物理AI大模型,让机器人看懂世界

英伟达发布Cosmos 3:全球首款全开源全模态物理AI大模型,让机器人看懂世界

核心看点:

  • 全球首款完全开源的全模态物理AI大模型,原生理解文本/图像/视频/音效/动作
  • 将物理AI训练和评估周期从数月缩短到数天
  • 联合思灵机器人、Runway等成立”宇宙联盟”推动物理AI发展

6月1日,在2026台北GTC大会上,英伟达扔出一颗重磅炸弹——Cosmos 3。这不是又一个聊天机器人,而是专门给机器人、自动驾驶汽车和视觉智能体准备的”世界理解引擎”。

物理AI的痛点:机器人为什么笨?

物理AI长期面临一个核心难题:机器人、自动驾驶车辆依靠有限训练数据和零散仿真框架,在真实场景中很难泛化。简单说就是,机器人在实验室里表现很好,一到真实世界就抓瞎。

Cosmos 3的解决方案是:让模型先真正理解物理世界的规律,再去生成和预测。

混合Transformer架构:能推理,也能生成

Cosmos 3采用混合架构,将推理Transformer与生成Transformer结合。模型先解析物体交互、运动规律和时空关联,再完成视频生成与动作轨迹预测。这种”先理解后生成”的路径,让仿真精度达到业界领先水平。

三大应用场景

开发者可以把Cosmos 3当三类工具用:一是多模态图文大模型,做跨模态理解;二是世界模型/视频基础模型,仿真物理环境、预判场景未来状态;三是世界动作模型主干网络,辅助训练机器人完成各类专项任务。

宇宙联盟:抱团推进物理AI

英伟达同时发起”英伟达宇宙联盟”(NVIDIA Cosmos Coalition),成员包括思灵机器人、德国黑森林实验室、Generalist、LTX、Runway和Skild AI。黄仁勋说得很直接:”物理AI的变革时代即将到来。”

当AI从数字世界走向物理世界,Cosmos 3可能是那个关键的桥梁。

本文地址:https://www.163264.com/12545

(0)
MiniMax M3发布:国产首个百万上下文开源大模型,编程能力超GPT-5.5
上一篇 8小时前
下一篇 8小时前

相关推荐