摘要

多模态大模型（LMMs）不仅拥有大型语言模型（LLMs）的特点，还拓宽了其多感官技能，例如视觉理解，从而实现了更强的通用智能。

本文深入探索并分析了最新的 GPT-4V(ision) 模型，旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务，通过一系列精心设计的测试样本，来检验 GPT-4V 能力的质量和通用性，以及它所支持的输入和工作方式，还有有效启动模型的方法。

在探索 GPT-4V 的过程中，我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V 能够处理任意混合的多模态输入，并且其功能的通用性使其成为一个强大的多模态通用系统。此外，GPT-4V 独特的识别输入图像上绘制的视觉标记的能力，为发展新的人机交互方式，比如视觉参考提示，提供了可能。

报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究，发掘和强化 LMMs 以解决现实世界问题的新方法，以及对多模态基础模型有更深的理解。

注：报告专注探索具备视觉功能的 GPT-4V(ision)，并依据 OpenAI 的相关报告 OpenAI (2023b, a) 将其命名为“GPT-4V”。同时，我们将模型的纯文本版本称为“GPT-4 (no vision)” OpenAI (2023a)。

论文原址：

https://arxiv.org/pdf/2309.17421.pdf

中文翻译：

https://card.weibo.com/article/m/show/id/2309404952763347108084

本文地址：https://www.163264.com/5394

微软发布了一份166页的论文《LMM 的黎明：GPT-4V (ision) 的初步探索》

摘要