模型框架
-
字节的两个AI视频项目:MagicEdit + MagicAvatar



1,MagicEdit是字节跳动开发的一款高保真度和时间连贯性的视频编辑工具。它通过明确区分外观和动作的学习,实现了高保真度和时间连贯性的视频编辑。MagicEdit支持多种编辑应用,包括视频风格化、局部编辑、视频混合和视频扩展等功能。用户可以使用视频风格化功能将源视频转换为具有特定风格的新视频,也可以通过局部编辑功能对视频进行局部修改,还可以通过视频混合功能创造出新颖的概念。…
-
Scenimefy:帮你把图片甚至视频处理成新海诚动漫风格



Scenimefy项目可以将复杂的真实世界图像自动渲染成高质量的动漫场景。它不仅依赖已有的动漫图像,还会自动生成一些用于训练的图像。通过特殊的模型生成的图像在风格上与动漫非常相似,既保留了原始图像的内容,又具有动漫的风格。还提供了一个高分辨率的动漫场景数据集,对未来的研究和应用有帮助。 项目地址: https://yuxinn-j.github.io/projects/Scen…
-
用AI构建你的第二大脑的开源AI项目Quivr
Quivr是一个开源项目,旨在存储和检索非结构化信息。它可以存储文本和多媒体等各种非结构化内容,并通过自然语言处理技术生成信息和数据。 Quivr的安装过程包括克隆存储库、创建虚拟环境、安装依赖项和添加凭据等步骤。 Quivr可以存储各种数据集,并且通过先进人工智能的帮助找回丢失的信息。 它是一款重要的工具,将信息检索能力与云系统集成在一起。 Quivr的主要优点是可以同时处理…
-
阿里云开源大规模视觉语言模型Qwen-VL,能读图会识物,基于通义千问7B打造,可商用
阿里开源大模型,又上新了~ 继通义千问-7B(Qwen-7B)之后,阿里云又推出了大规模视觉语言模型Qwen-VL,并且一上线就直接开源。 具体来说,Qwen-VL是基于通义千问-7B打造的多模态大模型,支持图像、文本、检测框等多种输入,并且在文本之外,也支持检测框的输出。 举个例子,我们输入一张阿尼亚的图片,通过问答的形式,Qwen-VL-Chat既能概括图片内容,也能定位到…
-
Meta 已开源文本生成代码 AI 编程模型 Code Llama
Meta 在官网正式开源了文本生成代码模型 Code Llama。Code Llama 模型通过特定代码数据预训练、微调而成,支持文本或代码生成、调试和完成任务。 据悉,Code Llama 是基于 Meta 最强开源大语言模型 Llama2 开发而成,提供了 70 亿、130 亿、340 亿三种参数模型,支持 Python、C++、Java、PHP、Typescript(Ja…
-
一个基于 Diffusion 的视频生成模型 StableVideo,开源
这篇内容介绍了一个基于Diffusion的视频生成模型StableVideo。该模型通过引入时间依赖性,为编辑的对象生成一致的外观,解决了闪烁问题。通过层次表示的概念将外观信息传播到下一帧,构建了一个基于文本的视频编辑框架,可以实现一致性感知的视频编辑。演示视频的合集展示了模型的稳定性,对此感兴趣的人可以下载模型进行尝试。 项目地址: https://github.com/re…
-
清华联合字节开源一款认知导向的开源听觉大语言模型SALMONN
清华大学电子工程系与字节跳动火山语音团队合作,于上周推出一款认知导向的开源听觉大语言模型SALMONN(Speech Audio Language Music Open Neural Network),该模型不仅能够感知和理解各种类型的音频输入,还涌现出多语言和跨模态推理等高级能力。目前SALMONN能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等…
-
Meta于开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本
Meta于当地时间8月22日开源发布了AI翻译模型SeamlessM4T,能转录和翻译数百种语言的语音和文本,并开源了翻译数据集SeamlessAlign。Meta称,这是迄今为止最大的开放多模式翻译数据集,覆盖挖掘的语音和文本对齐总计27万小时。 在进行鲁棒性测试时,与当前最先进的模型相比,SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好,平均分别提…
-
上海AI实验室发布的文字生成3D模型-MATLABER
这篇文章介绍了一种基于文本生成3D模型的方法,通过使用强大的文本到图像扩散模型,能够生成具有引人注目的几何形状和外观的3D模型。然而,现有的方法仍然难以恢复高保真度的物体材料,要么只考虑Lambertian反射,要么无法将BRDF材料与环境光分离。为此,作者提出了一种名为MATLABER的材料感知文本到3D模型的方法,利用新颖的BRDF自编码器进行材料生成。通过使用大规模真实世…
-
GitHub 存储库上一项被称为 “aih” 的新项目,允许用户在终端与不同AI聊天机器人对话
项目地址:https://github.com/Databingo/aih 对于开发者来说,这不仅可以节省时间,提高工作效率,同时还可以实时获取 AI 聊天机器人反馈。随着 AI 技术的不断发展,我们可以预见,这个产品在未来可能引领一种全新的交互潮流。 核心功能: 支持多种人工智能模型:aih 支持与 Bard、Claude2、Llama2等多个人工智能模型进行对话,用户可以根…
