智元机器人旗下的 WITA大模型 最近完成了备案,成为全国首款合规落地的具身智能交互大模型。说人话就是:机器人跟人说话,现在也有”上岗证”了。
为什么这事重要?因为以前机器人交互这块其实挺野的——模型怎么训练、数据从哪来、输出安不安全,基本没人管。现在WITA率先完成备案,相当于给行业打了个样:机器人AI也得合规,不能”裸奔”。
核心看点
- 全国首款合规具身智能交互大模型:WITA完成备案,机器人AI进入规范化时代
- 端到端全模态交互:WITA Omni1.0将实现语音、视觉、动作的全面融合交互
- 358宏图计划:智元目标2027年营收突破100亿,野心不小
具身智能这个概念今年特别火。简单说,就是给AI配上身体(机器人),让它能在真实世界里感知、理解、行动。这跟只会聊天的ChatGPT不一样——ChatGPT是”大脑在云端、没有身体”,具身智能是”大脑+身体都在现场”。
但具身智能有个核心难题:交互。机器人要跟人类在同一个物理空间里协作,得看得懂环境、听得懂指令、说得出反馈、做得了动作。这四件事合在一起,就是”全模态交互”——视觉、听觉、语言、动作四种模态的融合。
WITA解决的就是这个问题。它不是单一的语言模型,而是专门为机器人场景设计的交互大模型。比如你在餐厅里对服务机器人说”帮我拿杯水”,WITA要同时处理:听到你说的话(听觉)、看到你在哪、周围有什么障碍物(视觉)、理解”拿水”是什么意思、需要执行什么动作序列(语言理解+动作规划)、最后把水杯递给你时还说一句”请慢用”(语言生成+动作执行)。
这种全模态交互比单纯的语音识别+语音合成复杂得多。以前的机器人交互基本上是”你问我答”——你说一句,它回一句,没有上下文、没有环境感知、没有动作协调。WITA能做到的是”你动我懂”——你抬手示意、眼神看向某个方向、同时说一句话,它能把这些信息综合起来,理解你的真实意图。
备案的意义在于合规。AI大模型备案是国家网信办的要求,通过备案意味着模型在数据来源、训练过程、输出内容、安全风险等方面都经过了审查。对于机器人这种跟人直接打交道的AI,备案尤其重要——万一机器人说错话、做错动作,伤害到人,责任怎么划分?备案至少确保了模型在上线前经过了基本的安全评估。
WITA目前落地的场景主要是导览导购和服务零售。比如商场里的导览机器人,能听懂顾客问”哪里有洗手间””三楼有什么餐厅”,然后不仅语音回答,还能转身、抬手指方向,甚至带你走过去。再比如零售店的导购机器人,顾客拿起一件衣服,它能识别款式、颜色、尺码,然后介绍材质、搭配建议、促销活动,全程自然对话,不像以前那种”请按1查询、按2购买”的机械交互。
智元还给未来定了个 ambitious 的目标——358宏图计划:2026年营收30亿、2027年100亿、2030年1000亿。这个目标的底气来自几个方面。第一是技术领先,WITA是国内第一个合规的具身智能交互大模型,先发优势明显。第二是场景落地快,导览导购、服务零售、工业协作、家庭陪护,每个场景都是万亿级市场。第三是生态合作,智元已经跟多家机器人硬件厂商、商业地产、零售品牌签了合作协议,WITA不只是技术,而是技术+场景+商业的闭环。
当然,1000亿的目标听着有点远。智元目前面临的主要挑战是规模化落地。一个商场放两台导览机器人不难,全国几万个商场都放,就是十几万台的订单——这需要强大的供应链、安装、维护能力。再比如家庭陪护机器人,技术成熟了,但消费者愿不愿意花几万块买一个?这些商业问题不比技术问题简单。
不过从行业角度看,WITA备案的意义已经超出了智元一家公司。它证明了具身智能是可以合规落地的,为整个行业打了个样。以后其他机器人公司要做交互大模型,就知道该怎么准备备案材料、怎么设计安全机制、怎么平衡能力和合规。这对于中国机器人产业的标准化和规模化,都是好事。
如果你关注机器人行业,或者正在考虑引进服务机器人,WITA的进展值得跟踪。具身智能的交互能力,可能是决定机器人能不能从”噱头”变成”工具”的关键分水岭。
本文地址:https://www.163264.com/11919

