MagicDance：序列动作+角色参考生成动作视频

摘要：在这项工作中，我们提出了MagicDance，一种基于扩散的模型，用于挑战性的人类舞蹈视频的二维人体动作和面部表情转移。具体而言，我们的目标是在保持身份不变的情况下，生成任何目标身份驱动的人类舞蹈视频，其驱动因素是新颖的姿势序列。为此，我们提出了一个两阶段的训练策略，用于解开人体动作和外观（例如面部表情、肤色和着装）之间的关系，包括对外观控制块的预训练和对相同数据集的人类舞蹈姿势的外观-姿势-关节控制块的微调。我们的新颖设计实现了对外观的鲁棒控制，具有时间上一致的上半身、面部属性甚至背景。该模型还可以很好地推广到未见过的人类身份和复杂的动作序列，无需通过利用图像扩散模型的先验知识进行任何调优。此外，所提出的模型易于使用，并且可以被视为Stable Diffusion的插件/扩展。我们还展示了该模型在无需任何进一步调优的情况下，实现零调优的2D动画生成能力，不仅可以将外观从一个身份转移到另一个身份，还可以仅通过姿势输入实现类似卡通的风格化。大量实验证明了我们在TikTok数据集上的卓越性能。

结果：1.人体动作和面部表情转移可视化。MagicDance能够在多样的姿势骨架和面部标志输入条件下生成生动逼真的动作和表情，并准确地保持参考图像输入的身份信息。

2.零调优动画可视化。MagicDance可以在仅经过真实人类舞蹈视频训练后，即使没有任何进一步的调优，也能提供带有身份信息的卡通风格生成。

与最新作品的比较：人类视频生成的定性比较。之前的方法明显存在面部表情和人体姿势身份不一致的问题。

与最新SOTA方法DreamPose和Disco的定量比较。↓表示数值越低越好，反之亦然。带有*的方法直接使用目标图像作为输入，与OpenPose相比包含更多信息。†表示Disco在其他数据集上进行了预训练，而我们提出的MagicDance仅使用了TikTok数据集中的335个视频序列进行预训练和微调。Face-Cos表示生成图像与真实图像之间的面部区域余弦相似度。

项目地址：

https://boese0601.github.io/magicdance/

本文地址：https://www.163264.com/5639