看得懂图片,又一个多模态大模型MiniGPT4发布,仅用4块A100训练10小时

最新发布的MiniGPT4是一个多模态大模型,可以理解图片并利用文本描述生成内容。它是通过整合BLIP-2和Vicuna来将图片转化为文本描述并根据这些描述创建内容。仅使用了4块A100 GPU训练10小时。通过冻结大部分原始模型参数,大大减少了训练时间和硬件需求。MiniGPT4已经开始识别图像并参与交互对话。

https://minigpt-4.github.io/

通用技术GPT-4展示了出色的多模态生成能力,而MiniGPT-4则利用投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐,并展现出类似于GPT-4的功能,如详细的图像描述生成和从手写草稿创建网站,同时还观察出了一些新兴功能。但在实验中,仅对原始图像-文本对进行预训练会产生不自然的语言输出,需要使用对话模板微调模型以增强可靠性和整体可用性。尽管如此,MiniGPT-4的计算效率仍然极高,只使用约500万个对齐的图像文本对训练投影层。

看得懂图片,又一个多模态大模型MiniGPT4发布,仅用4块A100训练10小时

仅凭简单的手绘草图,就能生成一个完整的网站

看得懂图片,又一个多模态大模型MiniGPT4发布,仅用4块A100训练10小时

基于产品照片,可以自动生成广告口号

看得懂图片,又一个多模态大模型MiniGPT4发布,仅用4块A100训练10小时

基于一碗拉面,可以自动生成菜谱和制作过程

看得懂图片,又一个多模态大模型MiniGPT4发布,仅用4块A100训练10小时

基于植物叶子,还能识别出植物的病症

本文地址:https://www.163264.com/2198

(1)
上一篇 2023年4月19日 上午9:18
下一篇 2023年4月19日 上午9:55