
核心看点:
6月1日,在2026台北GTC大会上,英伟达扔出一颗重磅炸弹——Cosmos 3。这不是又一个聊天机器人,而是专门给机器人、自动驾驶汽车和视觉智能体准备的”世界理解引擎”。
物理AI的痛点:机器人为什么笨?
物理AI长期面临一个核心难题:机器人、自动驾驶车辆依靠有限训练数据和零散仿真框架,在真实场景中很难泛化。简单说就是,机器人在实验室里表现很好,一到真实世界就抓瞎。
Cosmos 3的解决方案是:让模型先真正理解物理世界的规律,再去生成和预测。
混合Transformer架构:能推理,也能生成
Cosmos 3采用混合架构,将推理Transformer与生成Transformer结合。模型先解析物体交互、运动规律和时空关联,再完成视频生成与动作轨迹预测。这种”先理解后生成”的路径,让仿真精度达到业界领先水平。
三大应用场景
开发者可以把Cosmos 3当三类工具用:一是多模态图文大模型,做跨模态理解;二是世界模型/视频基础模型,仿真物理环境、预判场景未来状态;三是世界动作模型主干网络,辅助训练机器人完成各类专项任务。
宇宙联盟:抱团推进物理AI
英伟达同时发起”英伟达宇宙联盟”(NVIDIA Cosmos Coalition),成员包括思灵机器人、德国黑森林实验室、Generalist、LTX、Runway和Skild AI。黄仁勋说得很直接:”物理AI的变革时代即将到来。”
当AI从数字世界走向物理世界,Cosmos 3可能是那个关键的桥梁。
本文地址:https://www.163264.com/12545


微信扫一扫,鼓励一下~