Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

根据提供的PDF文档内容，以下是对”Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs”论文的归纳总结：

1. **研究背景**：
– 移动应用程序已成为日常生活中的重要组成部分，但现有的多模态大型语言模型（MLLMs）在理解和与用户界面（UI）屏幕有效交互方面存在不足。

2. **Ferret-UI模型**：
– 论文提出了Ferret-UI，这是一个专门为提高对移动UI屏幕理解而设计的MLLM，具备参照、定位和推理能力。
– 考虑到UI屏幕通常具有更长的宽高比和比自然图像更小的感兴趣对象（例如图标、文本），Ferret-UI在Ferret基础上加入了“任意分辨率”（any resolution）来放大细节并利用增强的视觉特征。

3. **模型架构**：
– Ferret-UI基于Ferret模型，该模型在自然图像中的空间参照和定位方面表现出色。
– 为了适应UI屏幕的不同宽高比，Ferret-UI集成了“任意分辨率”技术，将全屏图像分割成子图像，以便更好地处理细节。

4. **数据集和任务制定**：
– 论文详细描述了如何为模型训练和评估生成数据集，包括UI检测数据收集和从原始检测中创建特定任务数据。
– 通过模板化方法生成基本UI任务的训练样本，如小部件分类、图标识别、光学字符识别（OCR）和定位任务。
– 为了增强模型的推理能力，还编译了一个包含高级任务的数据集，包括详细描述、感知/交互对话和功能推断。

5. **实验和评估**：
– Ferret-UI在经过精心策划的数据集上训练后，展现出卓越的UI屏幕理解能力和执行开放式指令的能力。
– 为了模型评估，建立了一个全面的基准测试，包括所有前述任务。
– Ferret-UI不仅在大多数开源UI MLLMs中表现优异，而且在所有基本UI任务中都超过了GPT-4V。

6. **贡献总结**：
– 提出了Ferret-UI，它是第一个专注于UI屏幕的MLLM，能够有效执行参照、定位和推理任务。
– 定义了一组基本和高级UI任务，并为模型训练精心收集了训练样本。
– 开发了一个全面的测试基准，涵盖了所有研究中的任务。

7. **结论**：
– Ferret-UI作为一个专门设计的MLLM，显著提高了对移动UI屏幕的理解和交互能力，为下游UI应用带来了实质性的进步。

这篇论文展示了通过结合多模态大型语言模型和特定的UI理解任务，可以显著提高模型对移动应用界面的理解和交互能力，为未来的UI自动化和可访问性提供了新的可能性。

论文地址：

https://arxiv.org/pdf/2404.05719.pdf

本文地址：https://www.163264.com/6829