核心看点
- 🎮 米哈游创始人蔡浩宇退休后创立 AI 公司 Anuttacon,首款 AI 游戏已发售
- 🎭 新模型 LPM 1.0 发布:170 亿参数,专攻高一致性视频角色表演生成
- ⚡ 直面”表演三难”——高表现力、实时推理、长时稳定性的统一建模
米哈游创始人蔡浩宇退休后投身 AI 领域,在新加坡创立了新公司 Anuttacon,专注于 AI 交互式内容和 AGI 产品研发。当地时间 4 月 9 日,Anuttacon 团队在 arXiv 发布论文,正式公开其新一代视频角色表演生成模型 LPM 1.0(Large Performance Model),并同步上线项目主页。
170 亿参数的 DiT 架构
论文显示,LPM 1.0 采用 17B(约 170 亿参数)的扩散 Transformer 架构(DiT)。扩散模型通过逐步加噪与去噪过程学习数据分布,近年来已被广泛应用于图像与视频生成等视觉任务。在此基础上,Transformer 架构被引入作为主干网络,使模型能够在统一的表示空间中处理时序与空间信息,从而提升复杂视频生成任务中的表达能力。
当前视频生成模型正从传统的 U-Net 扩散结构逐步演进至基于 Transformer 的 DiT 架构。这类架构通过将空间、时间及条件信息统一为 token 进行建模,具备更强的全局建模能力,有助于提升视频生成的清晰度、时序一致性以及语义多样性。
专攻”角色表演生成”
LPM 1.0 的目标不是泛泛的视频生成,而是面向“角色表演生成”这一更细分的场景——对人物动作、表情以及语义驱动的表现进行统一建模。
研究团队指出,表演是意图、情感和个性通过视觉、声音和时间行为的外化,是让角色”活起来”的关键。从视频中学习这种表演是传统 3D 流程的有力替代方案。然而,现有的视频模型难以同时实现高表现力、实时推理和长时稳定性,这一矛盾被称为“表演三难”(Performance Trilemma)。
全双工音频-视觉对话表演
为此,LPM 1.0 专注于单人全双工音频-视觉对话表演。研究团队通过严格过滤、说话-倾听音频-视频配对、表演理解以及身份感知多参考提取,构建了一个多模态以人为中心的数据集。
模型被设计为支持不同粒度的控制能力,包括基于文本、参考视频或图像等多种条件输入,生成具有连贯动作与表现力的角色视频内容。
团队背景
论文作者名单共包含 24 位研究人员,通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作,此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。
项目链接
本文地址:https://www.163264.com/10864