1月30日,来自阿里和北京交通大学的团队在arXiv上发表论文,提出了用于操作手机的智能体框架Mobile-Agent。据介绍,这是一个纯视觉解决方案,不需要XML(可拓展标记语言)和系统元数据,其操作范围不受限制,可进行多应用操作,配备多种视觉感知工具用于操作定位,且无需训练,即插即用。目前,Mobile-Agent已经学会了阿里巴巴、谷歌地图、TikTok等10个APP的操作,可以完成一些跨应用任务。
论文地址:
https://arxiv.org/abs/2401.16158
本文地址:https://www.163264.com/6341