多模态生成模型PandaGPT:图像/视频、音频、文本、深度、热图、IMU

2023年5月26日上午10:54 • 应用 • 阅读 1110

PandaGPT采用ImageBind编码输入数据，使用Vicuna跟踪语言指令。PandaGPT能够解锁数据在六个模态（图像/视频、音频、文本、深度、热图、IMU）中的各种新颖多模态能力，例如复杂的理解/推理、多轮对话等。

图片/视频接地问答。图像/视频启发的创意写作。视觉和听觉推理。多模态算法。

Project Page: panda-gpt.github.io

Code: github.com/yxuansu/PandaG

本文地址：https://www.163264.com/3578