AI 共存派

  • 阿里出品的真人跳舞方案:DreaMoving,图片+文字提示就能生成高质量舞蹈视频

    DreaMoving是一个基于扩散的可控视频生成框架,用于生成高质量的定制人类视频。它可以根据给定的目标身份和姿势序列,在任何地方生成目标身份跳舞的视频。该框架包括视频控制网络和内容指南,可以生成高质量和高保真度的视频。DreaMoving在未见过的领域也表现出强大的泛化能力。 项目地址: https://dreamoving.github.io/dreamoving/

    2023年12月12日
  • 谷歌宣布发布新一代大模型 Gemini,AI 进入多模态时代

    前言: 每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变,其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力,无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力的发展。 让我感到兴奋的是:有机…

    2023年12月7日
  • HeyGen推出Avatar2.0 ,Instant Avatar 即时虚拟分身

    详情: https://www.heygen.com/article/introducing-avatar-2-0-instant-avatar HeyGen的“即时化身”是一项新技术,可以在短短5分钟内简化个性化化身的创建过程,使先进的工作室技术普及化。它通过翻译工具支持可扩展的定制视频内容和多语言能力。这一创新将改变企业的视频制作方式,实现独特的故事叙述和个性化互动。 &#…

    2023年12月5日
  • AI 能将视频中的主题转化为 SVG 素描 – sketchvideo

    AI 能将视频中的主题转化为 SVG 素描!因此,素描视频合成可以实现各种渲染技术,包括调整大小、填充颜色以及在原始背景图像上叠加涂鸦。 项目地址: https://sketchvideo.github.io/ 这篇内容介绍了一种基于优化的视频素描生成框架,通过使用逐帧的贝塞尔曲线来表示视频。首先,通过交叉帧笔画初始化方法来确定每条曲线的位置和宽度。然后,通过利用基于CLIP特…

    2023年12月4日
  • Meta推出了一款名为Audiobox的音频生成模型,通过语音输入和自然语言文本提示来生成语音和音效

    Meta推出了一款名为Audiobox的音频生成模型,它可以通过语音输入和自然语言文本提示来生成语音和音效,用于创建自定义音频。据Meta称,Audiobox是第一个支持语音和文本双输入进行语音重新设计的模型。Meta将在接下来的几周内开放基于Audiobox的应用程序,并展示Audiobox功能的交互式演示。 详情: https://ai.meta.com/blog/audi…

    2023年12月2日
  • 在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量的方法:DMD

    Adobe和麻省理工学院的研究人员共同发布论文,介绍一种分布匹配蒸馏(Distribution Matching Distillation,DMD)方法,可在速度提升30倍的情况下生成与Stable Diffusion v1.5相当的图像质量。 项目地址: https://tianweiy.github.io/dmd/

    2023年12月2日
  • 一个专门针对角色动画的新框架Animate Anyone,可从静态图像AI生成动态视频

    来自阿里的研究团队发布论文,利用扩散模型的能力,提出了一个专门针对角色动画的新框架Animate Anyone,可从静态图像AI生成动态视频,从而将任意角色动画化。 论文地址: https://arxiv.org/pdf/2311.17117.pdf

    2023年12月2日
  • 基于大学知识的多模态LLM测评基准MMMU发布

    《专家级人工智能的大规模多学科多模态理解和推理基准》是一个新的基准,旨在评估多模态模型在大规模多学科任务上的专家级理解能力。该基准包括来自大学考试、测验和教科书的11500个精心收集的多模态问题,涵盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程等六个核心学科。与现有的基准不同,该基准侧重于具有领域特定知识的高级感知和推理,挑战模型执行类似于专家面临的任务。…

    2023年12月2日
  • Meta AI 发布实时人工智能语言翻译模型:Seamless,可以实时翻译100多种语言,延迟不到2秒钟

    在我们与SeamlessM4T的合作基础上,我们今天公开发布了一些改进,这些改进可以跨语言保留表达,并将延迟降低到约两秒。在我们日益互联的世界中,语言差异可能成为沟通的障碍,翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而,如今许多这些系统并不能保留人类沟通所具有的关键要素。具体而言,传达我们想要表达的不仅仅是我们选择的词语,还有我们说话的方式。语调、停顿和强调都…

    2023年12月2日
  • MagicDance:序列动作+角色参考生成动作视频

    摘要:在这项工作中,我们提出了MagicDance,一种基于扩散的模型,用于挑战性的人类舞蹈视频的二维人体动作和面部表情转移。具体而言,我们的目标是在保持身份不变的情况下,生成任何目标身份驱动的人类舞蹈视频,其驱动因素是新颖的姿势序列。为此,我们提出了一个两阶段的训练策略,用于解开人体动作和外观(例如面部表情、肤色和着装)之间的关系,包括对外观控制块的预训练和对相同数据集的人类…

    2023年11月23日