交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

InternChat是一种基于指向语言的视觉交互系统,可以通过指向指令来提高用户与聊天机器人之间的沟通效率和聊天机器人在复杂视觉场景下的准确性。该系统还使用辅助控制机制来提高交互体验,并使用名为Husky的大型视觉语言模型进行高质量的多模态对话。用户可以通过在线演示和下载安装来使用该系统。 

交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

交互式视觉框架 iChat 使用户能够直接操作屏幕上的图像或视频

支持中文

支持MOSS

基于InternImage和InternVideo的更强大的基础模型

更准确的交互体验

网页和代码生成

支持语音助手

支持点击交互

交互式图片编辑

交互式图像生成

交互式视觉问答

图像分割

图像修补

图像说明

图像抠图

光学字符识别

动作识别

视频说明

视频密集描述

视频重点解释

演示地址:

https://ichat.opengvlab.com/

项目地址:

https://github.com/OpenGVLab/InternChat

论文:

https://arxiv.org/abs/2305.05662

来源:https://mp.weixin.qq.com/s/4gADQ_E_tIh3CCv1E4c7ug

本文地址:https://www.163264.com/3158

(0)
打赏 微信扫一扫,鼓励一下~ 微信扫一扫,鼓励一下~
上一篇 2023年5月10日 下午2:45
下一篇 2023年5月10日 下午2:46

相关推荐