看得懂图片，又一个多模态大模型MiniGPT4发布，仅用4块A100训练10小时

最新发布的MiniGPT4是一个多模态大模型，可以理解图片并利用文本描述生成内容。它是通过整合BLIP-2和Vicuna来将图片转化为文本描述并根据这些描述创建内容。仅使用了4块A100 GPU训练10小时。通过冻结大部分原始模型参数，大大减少了训练时间和硬件需求。MiniGPT4已经开始识别图像并参与交互对话。

https://minigpt-4.github.io/

通用技术GPT-4展示了出色的多模态生成能力，而MiniGPT-4则利用投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐，并展现出类似于GPT-4的功能，如详细的图像描述生成和从手写草稿创建网站，同时还观察出了一些新兴功能。但在实验中，仅对原始图像-文本对进行预训练会产生不自然的语言输出，需要使用对话模板微调模型以增强可靠性和整体可用性。尽管如此，MiniGPT-4的计算效率仍然极高，只使用约500万个对齐的图像文本对训练投影层。

看得懂图片，又一个多模态大模型MiniGPT4发布，仅用4块A100训练10小时