海内外大语言模型（LLM） | 第26页

模型框架

阿里发布的虚拟服装试穿 – Outfit Anyone

阿里发布的虚拟服装试穿 – Outfit Anyone：只需要一张人物照片和服装照片就可以让那个人穿上这个衣服，特色是可以为不同的姿势和身体形状创建高质量的虚拟试穿。（目前还没有代码）体验地址： https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

2023年12月16日

模型框架

字节跳动开发了一种名为StemGen的音乐生成模型

字节跳动开发了一种名为StemGen的音乐生成模型。该模型能够通过聆听和理解给定的音乐上下文来生成新的音乐。它能够分析音乐的特点，如旋律、节奏和风格。 StemGen是一个音乐生成模型，它可以根据音乐的上下文生成音乐。它采用了非自回归语言模型类型的架构，可以生成各种乐器的音轨。模型可以根据给定的音频上下文生成新的音轨，并与现有音频混合，实现交互式音乐生成。项目地址： http…

2023年12月16日

模型框架

阿里出品的真人跳舞方案：DreaMoving，图片+文字提示就能生成高质量舞蹈视频

DreaMoving是一个基于扩散的可控视频生成框架，用于生成高质量的定制人类视频。它可以根据给定的目标身份和姿势序列，在任何地方生成目标身份跳舞的视频。该框架包括视频控制网络和内容指南，可以生成高质量和高保真度的视频。DreaMoving在未见过的领域也表现出强大的泛化能力。项目地址： https://dreamoving.github.io/dreamoving/

2023年12月12日

模型框架

AI 能将视频中的主题转化为 SVG 素描 – sketchvideo

AI 能将视频中的主题转化为 SVG 素描！因此，素描视频合成可以实现各种渲染技术，包括调整大小、填充颜色以及在原始背景图像上叠加涂鸦。项目地址： https://sketchvideo.github.io/ 这篇内容介绍了一种基于优化的视频素描生成框架，通过使用逐帧的贝塞尔曲线来表示视频。首先，通过交叉帧笔画初始化方法来确定每条曲线的位置和宽度。然后，通过利用基于CLIP特…

2023年12月4日

模型框架

Meta推出了一款名为Audiobox的音频生成模型，通过语音输入和自然语言文本提示来生成语音和音效

Meta推出了一款名为Audiobox的音频生成模型，它可以通过语音输入和自然语言文本提示来生成语音和音效，用于创建自定义音频。据Meta称，Audiobox是第一个支持语音和文本双输入进行语音重新设计的模型。Meta将在接下来的几周内开放基于Audiobox的应用程序，并展示Audiobox功能的交互式演示。详情： https://ai.meta.com/blog/audi…

2023年12月2日

模型框架

在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量的方法：DMD

Adobe和麻省理工学院的研究人员共同发布论文，介绍一种分布匹配蒸馏（Distribution Matching Distillation，DMD）方法，可在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量。项目地址： https://tianweiy.github.io/dmd/

2023年12月2日

模型框架

一个专门针对角色动画的新框架Animate Anyone，可从静态图像AI生成动态视频

来自阿里的研究团队发布论文，利用扩散模型的能力，提出了一个专门针对角色动画的新框架Animate Anyone，可从静态图像AI生成动态视频，从而将任意角色动画化。论文地址： https://arxiv.org/pdf/2311.17117.pdf

2023年12月2日

模型框架

基于大学知识的多模态LLM测评基准MMMU发布

《专家级人工智能的大规模多学科多模态理解和推理基准》是一个新的基准，旨在评估多模态模型在大规模多学科任务上的专家级理解能力。该基准包括来自大学考试、测验和教科书的11500个精心收集的多模态问题，涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科。与现有的基准不同，该基准侧重于具有领域特定知识的高级感知和推理，挑战模型执行类似于专家面临的任务。…

2023年12月2日

模型框架

Meta AI 发布实时人工智能语言翻译模型：Seamless，可以实时翻译100多种语言，延迟不到2秒钟

在我们与SeamlessM4T的合作基础上，我们今天公开发布了一些改进，这些改进可以跨语言保留表达，并将延迟降低到约两秒。在我们日益互联的世界中，语言差异可能成为沟通的障碍，翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而，如今许多这些系统并不能保留人类沟通所具有的关键要素。具体而言，传达我们想要表达的不仅仅是我们选择的词语，还有我们说话的方式。语调、停顿和强调都…

2023年12月2日

模型框架

MagicDance：序列动作+角色参考生成动作视频

摘要：在这项工作中，我们提出了MagicDance，一种基于扩散的模型，用于挑战性的人类舞蹈视频的二维人体动作和面部表情转移。具体而言，我们的目标是在保持身份不变的情况下，生成任何目标身份驱动的人类舞蹈视频，其驱动因素是新颖的姿势序列。为此，我们提出了一个两阶段的训练策略，用于解开人体动作和外观（例如面部表情、肤色和着装）之间的关系，包括对外观控制块的预训练和对相同数据集的人类…

2023年11月23日