美团开源LongCat数字人视频模型:10秒视频1分钟生成,击败主流闭源

美团龙猫团队开源了商用级数字人视频生成模型LongCat-Video-Avatar1.5,生成10秒视频只要约1分钟,而且效果全面超过主流闭源模型。

三大升级:

  • 嘴型更准:音频编码器从Wav2Vec2换成Whisper-large,发音节奏和音素变化捕捉更细腻
  • 手不崩了:引入GRPO技术,解决数字人视频里常见的手部畸形和动作不连贯问题
  • 速度快15倍:采用DMD技术,推理效率大幅提升

开源地址:https://github.com/meituan-longcat/LongCat-Video

对做短视频、直播、虚拟主播的人来说,以前用闭源模型要么贵要么慢,现在有个免费、更快、效果还更好的选择。

本文地址:https://www.163264.com/12175

(0)
上一篇 8小时前
下一篇 5小时前

相关推荐