米哈游蔡浩宇新公司发布 LPM 1.0：170 亿参数模型专攻 AI 角色表演生成

Table of Contents

核心看点

🎮 米哈游创始人蔡浩宇退休后创立 AI 公司 Anuttacon，首款 AI 游戏已发售
🎭 新模型 LPM 1.0 发布：170 亿参数，专攻高一致性视频角色表演生成
⚡ 直面”表演三难”——高表现力、实时推理、长时稳定性的统一建模

米哈游创始人蔡浩宇退休后投身 AI 领域，在新加坡创立了新公司 Anuttacon，专注于 AI 交互式内容和 AGI 产品研发。当地时间 4 月 9 日，Anuttacon 团队在 arXiv 发布论文，正式公开其新一代视频角色表演生成模型 LPM 1.0（Large Performance Model），并同步上线项目主页。

170 亿参数的 DiT 架构

论文显示，LPM 1.0 采用 17B（约 170 亿参数）的扩散 Transformer 架构（DiT）。扩散模型通过逐步加噪与去噪过程学习数据分布，近年来已被广泛应用于图像与视频生成等视觉任务。在此基础上，Transformer 架构被引入作为主干网络，使模型能够在统一的表示空间中处理时序与空间信息，从而提升复杂视频生成任务中的表达能力。

当前视频生成模型正从传统的 U-Net 扩散结构逐步演进至基于 Transformer 的 DiT 架构。这类架构通过将空间、时间及条件信息统一为 token 进行建模，具备更强的全局建模能力，有助于提升视频生成的清晰度、时序一致性以及语义多样性。

专攻”角色表演生成”

LPM 1.0 的目标不是泛泛的视频生成，而是面向“角色表演生成”这一更细分的场景——对人物动作、表情以及语义驱动的表现进行统一建模。

研究团队指出，表演是意图、情感和个性通过视觉、声音和时间行为的外化，是让角色”活起来”的关键。从视频中学习这种表演是传统 3D 流程的有力替代方案。然而，现有的视频模型难以同时实现高表现力、实时推理和长时稳定性，这一矛盾被称为“表演三难”（Performance Trilemma）。

全双工音频-视觉对话表演

为此，LPM 1.0 专注于单人全双工音频-视觉对话表演。研究团队通过严格过滤、说话-倾听音频-视频配对、表演理解以及身份感知多参考提取，构建了一个多模态以人为中心的数据集。

模型被设计为支持不同粒度的控制能力，包括基于文本、参考视频或图像等多种条件输入，生成具有连贯动作与表现力的角色视频内容。

团队背景

论文作者名单共包含 24 位研究人员，通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作，此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

项目链接

🌐 项目主页：https://large-performance-model.github.io/

本文地址：https://www.163264.com/10864