AI 共存派 | 第67页

模型框架

阿里出品的真人跳舞方案：DreaMoving，图片+文字提示就能生成高质量舞蹈视频

DreaMoving是一个基于扩散的可控视频生成框架，用于生成高质量的定制人类视频。它可以根据给定的目标身份和姿势序列，在任何地方生成目标身份跳舞的视频。该框架包括视频控制网络和内容指南，可以生成高质量和高保真度的视频。DreaMoving在未见过的领域也表现出强大的泛化能力。项目地址： https://dreamoving.github.io/dreamoving/

2023年12月12日

行业/好文

谷歌宣布发布新一代大模型 Gemini，AI 进入多模态时代

前言：每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变，其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力，无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步，并以前所未有的规模推动知识、学习、创造力和生产力的发展。让我感到兴奋的是：有机…

2023年12月7日

应用

HeyGen推出Avatar2.0 ，Instant Avatar 即时虚拟分身

详情： https://www.heygen.com/article/introducing-avatar-2-0-instant-avatar HeyGen的“即时化身”是一项新技术，可以在短短5分钟内简化个性化化身的创建过程，使先进的工作室技术普及化。它通过翻译工具支持可扩展的定制视频内容和多语言能力。这一创新将改变企业的视频制作方式，实现独特的故事叙述和个性化互动。 &#…

2023年12月5日

模型框架

AI 能将视频中的主题转化为 SVG 素描 – sketchvideo

AI 能将视频中的主题转化为 SVG 素描！因此，素描视频合成可以实现各种渲染技术，包括调整大小、填充颜色以及在原始背景图像上叠加涂鸦。项目地址： https://sketchvideo.github.io/ 这篇内容介绍了一种基于优化的视频素描生成框架，通过使用逐帧的贝塞尔曲线来表示视频。首先，通过交叉帧笔画初始化方法来确定每条曲线的位置和宽度。然后，通过利用基于CLIP特…

2023年12月4日

模型框架

Meta推出了一款名为Audiobox的音频生成模型，通过语音输入和自然语言文本提示来生成语音和音效

Meta推出了一款名为Audiobox的音频生成模型，它可以通过语音输入和自然语言文本提示来生成语音和音效，用于创建自定义音频。据Meta称，Audiobox是第一个支持语音和文本双输入进行语音重新设计的模型。Meta将在接下来的几周内开放基于Audiobox的应用程序，并展示Audiobox功能的交互式演示。详情： https://ai.meta.com/blog/audi…

2023年12月2日

模型框架

在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量的方法：DMD

Adobe和麻省理工学院的研究人员共同发布论文，介绍一种分布匹配蒸馏（Distribution Matching Distillation，DMD）方法，可在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量。项目地址： https://tianweiy.github.io/dmd/

2023年12月2日

模型框架

一个专门针对角色动画的新框架Animate Anyone，可从静态图像AI生成动态视频

来自阿里的研究团队发布论文，利用扩散模型的能力，提出了一个专门针对角色动画的新框架Animate Anyone，可从静态图像AI生成动态视频，从而将任意角色动画化。论文地址： https://arxiv.org/pdf/2311.17117.pdf

2023年12月2日

模型框架

基于大学知识的多模态LLM测评基准MMMU发布

《专家级人工智能的大规模多学科多模态理解和推理基准》是一个新的基准，旨在评估多模态模型在大规模多学科任务上的专家级理解能力。该基准包括来自大学考试、测验和教科书的11500个精心收集的多模态问题，涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科。与现有的基准不同，该基准侧重于具有领域特定知识的高级感知和推理，挑战模型执行类似于专家面临的任务。…

2023年12月2日

模型框架

Meta AI 发布实时人工智能语言翻译模型：Seamless，可以实时翻译100多种语言，延迟不到2秒钟

在我们与SeamlessM4T的合作基础上，我们今天公开发布了一些改进，这些改进可以跨语言保留表达，并将延迟降低到约两秒。在我们日益互联的世界中，语言差异可能成为沟通的障碍，翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而，如今许多这些系统并不能保留人类沟通所具有的关键要素。具体而言，传达我们想要表达的不仅仅是我们选择的词语，还有我们说话的方式。语调、停顿和强调都…

2023年12月2日

模型框架

MagicDance：序列动作+角色参考生成动作视频

摘要：在这项工作中，我们提出了MagicDance，一种基于扩散的模型，用于挑战性的人类舞蹈视频的二维人体动作和面部表情转移。具体而言，我们的目标是在保持身份不变的情况下，生成任何目标身份驱动的人类舞蹈视频，其驱动因素是新颖的姿势序列。为此，我们提出了一个两阶段的训练策略，用于解开人体动作和外观（例如面部表情、肤色和着装）之间的关系，包括对外观控制块的预训练和对相同数据集的人类…

2023年11月23日