4月9日,智元机器人正式发布新一代具身基座大模型 Genie Operator-2(GO-2)。这款模型瞄准的是机器人领域最顽固的痛点——机器人能”听懂”指令、能”规划”任务,但真正动手执行时却总是差那么一点。
核心看点
- 首创”动作思维链”机制,让机器人在动作空间里先思考、再执行,实现真正的知行合一
- 采用异步双系统架构,低频规划 + 高频执行,显著提升复杂任务稳定性
- 在 LIBERO、VLABench 等多个主流基准测试中全面刷新 SOTA,平均成功率达 98.5%
- 相关成果已被 CVPR 2026 和 ACL 2026 接收
从”理解世界”到”稳定作用于世界”
过去一年,智元的 GO-1 已经让机器人学会了理解视觉、语言和动作的统一建模。但在真实场景中,一个核心问题始终存在:机器人虽然能生成合理规划,动作却不总能按规划执行。高层语义推理和底层运动控制之间存在一道”语义-运动鸿沟”。
GO-2 的突破在于,它首次在统一架构中打通了从逻辑推理到精准动作执行的”最后一公里”。
动作思维链:让机器人”想清楚再做”
传统模型往往直接从感知输入生成控制信号,”思考”和”执行”被压缩在同一个瞬间,缺乏中间结构。GO-2 引入了 Action Chain-of-Thought(动作思维链),模型不会立即输出控制信号,而是先在动作空间中生成一段高层动作序列,作为任务的整体规划。
复杂任务因此被自然拆解为有序步骤,机器人从”边看边做”转变为”想清楚再做”,执行偏差显著降低。
异步双系统:规划与执行不再脱节
GO-2 将规划和执行拆分为两个不同节奏的模块。慢系统以较低频率生成结构化的高层动作序列,持续约束执行方向;快系统以更高频率结合视觉观测生成具体控制信号,并在跟随规划的同时进行局部修正。
当桌面高度与预期不一致时,系统会自动调整手臂下探幅度;当物体摩擦特性变化时,会实时调整抓取力度。这种架构让规划不再停留在”想法”,而是能在真实环境中被持续兑现。
性能全面领先
在 LIBERO 基准测试中,GO-2 平均成功率达到 98.5%;在包含环境扰动的 LIBERO-Plus 零样本测试中取得 86.6%;在面向真实世界迁移的 Genie Sim 3.0 评测中,仅用仿真数据训练就在真实环境取得 82.9% 的平均成功率,显著优于 π0.5 的 77.5%。
通过 Genie Studio 开发平台,GO-2 已经构建起”预训练 + 后训练 + 数据闭环”的体系,能够在真实场景中持续学习、持续进化。具身智能从实验室走向产业落地的步伐,正在明显加快。
本文地址:https://www.163264.com/10840