美团龙猫团队开源了商用级数字人视频生成模型LongCat-Video-Avatar1.5,生成10秒视频只要约1分钟,而且效果全面超过主流闭源模型。
三大升级:
- 嘴型更准:音频编码器从Wav2Vec2换成Whisper-large,发音节奏和音素变化捕捉更细腻
- 手不崩了:引入GRPO技术,解决数字人视频里常见的手部畸形和动作不连贯问题
- 速度快15倍:采用DMD技术,推理效率大幅提升
开源地址:https://github.com/meituan-longcat/LongCat-Video
对做短视频、直播、虚拟主播的人来说,以前用闭源模型要么贵要么慢,现在有个免费、更快、效果还更好的选择。
本文地址:https://www.163264.com/12175

