智元GO-2具身大模型发布：让机器人首次实现”知行合一”

4月9日，智元机器人正式发布新一代具身基座大模型 Genie Operator-2（GO-2）。这款模型瞄准的是机器人领域最顽固的痛点——机器人能”听懂”指令、能”规划”任务，但真正动手执行时却总是差那么一点。

Table of Contents

过去一年，智元的 GO-1 已经让机器人学会了理解视觉、语言和动作的统一建模。但在真实场景中，一个核心问题始终存在：机器人虽然能生成合理规划，动作却不总能按规划执行。高层语义推理和底层运动控制之间存在一道”语义-运动鸿沟”。

GO-2 的突破在于，它首次在统一架构中打通了从逻辑推理到精准动作执行的”最后一公里”。

传统模型往往直接从感知输入生成控制信号，”思考”和”执行”被压缩在同一个瞬间，缺乏中间结构。GO-2 引入了 Action Chain-of-Thought（动作思维链），模型不会立即输出控制信号，而是先在动作空间中生成一段高层动作序列，作为任务的整体规划。

复杂任务因此被自然拆解为有序步骤，机器人从”边看边做”转变为”想清楚再做”，执行偏差显著降低。

GO-2 将规划和执行拆分为两个不同节奏的模块。慢系统以较低频率生成结构化的高层动作序列，持续约束执行方向；快系统以更高频率结合视觉观测生成具体控制信号，并在跟随规划的同时进行局部修正。

当桌面高度与预期不一致时，系统会自动调整手臂下探幅度；当物体摩擦特性变化时，会实时调整抓取力度。这种架构让规划不再停留在”想法”，而是能在真实环境中被持续兑现。

在 LIBERO 基准测试中，GO-2 平均成功率达到 98.5%；在包含环境扰动的 LIBERO-Plus 零样本测试中取得 86.6%；在面向真实世界迁移的 Genie Sim 3.0 评测中，仅用仿真数据训练就在真实环境取得 82.9% 的平均成功率，显著优于 π0.5 的 77.5%。

通过 Genie Studio 开发平台，GO-2 已经构建起”预训练 + 后训练 + 数据闭环”的体系，能够在真实场景中持续学习、持续进化。具身智能从实验室走向产业落地的步伐，正在明显加快。

本文地址：https://www.163264.com/10840