英伟达发布Cosmos 3：全球首款全开源全模态物理AI大模型，让机器人看懂世界

核心看点：

6月1日，在2026台北GTC大会上，英伟达扔出一颗重磅炸弹——Cosmos 3。这不是又一个聊天机器人，而是专门给机器人、自动驾驶汽车和视觉智能体准备的”世界理解引擎”。

物理AI的痛点：机器人为什么笨？

物理AI长期面临一个核心难题：机器人、自动驾驶车辆依靠有限训练数据和零散仿真框架，在真实场景中很难泛化。简单说就是，机器人在实验室里表现很好，一到真实世界就抓瞎。

Cosmos 3的解决方案是：让模型先真正理解物理世界的规律，再去生成和预测。

混合Transformer架构：能推理，也能生成

Cosmos 3采用混合架构，将推理Transformer与生成Transformer结合。模型先解析物体交互、运动规律和时空关联，再完成视频生成与动作轨迹预测。这种”先理解后生成”的路径，让仿真精度达到业界领先水平。

三大应用场景

开发者可以把Cosmos 3当三类工具用：一是多模态图文大模型，做跨模态理解；二是世界模型/视频基础模型，仿真物理环境、预判场景未来状态；三是世界动作模型主干网络，辅助训练机器人完成各类专项任务。

宇宙联盟：抱团推进物理AI

英伟达同时发起”英伟达宇宙联盟”（NVIDIA Cosmos Coalition），成员包括思灵机器人、德国黑森林实验室、Generalist、LTX、Runway和Skild AI。黄仁勋说得很直接：”物理AI的变革时代即将到来。”

当AI从数字世界走向物理世界，Cosmos 3可能是那个关键的桥梁。

本文地址：https://www.163264.com/12545