一个基于扩散模型让人物头像说话的框架DreamTalk

一个基于扩散模型让人物头像说话的框架DreamTalk

DreamTalk是一个基于扩散模型的框架,由清华大学、阿里巴巴和华中科大共同开发。它能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。该项目使用扩散模型生成动态和表情丰富的说话头部动画,包括去噪网络、风格感知的嘴唇专家、风格预测器、音频和视频处理以及数据和模型训练等关键组件。

亮点:

  1. DreamTalk不仅能够处理和生成训练过程中见过的面部类型和表情,还能有效处理和生成来自不同数据集的面部类型和表情,包括不同种族、年龄、性别的人物肖像,以及各种不同的表情和情绪。
  2. DreamTalk支持多种语言、语气和语调。

项目地址:

https://dreamtalk-project.github.io/

本文地址:https://www.163264.com/5754

(0)
上一篇 2023年12月17日 下午8:21
下一篇 2023年12月21日 下午8:48

相关推荐