字节研究院发布视频控制方式Boximator，可以精确控制物品结束运动的位置

这种控制方式比Runway的运动笔刷更进一步，你可以精确控制物品结束运动的位置。

演示中使用的视频模型也是字节研发的PixelDance视频生成模型。

项目简介：

我们提出了Boximator，这是一种用于精细运动控制的新方法。Boximator采用了两种约束机制：硬性约束（hard box）和软性约束（soft box）。

用户可以利用硬性约束选取视频中某一帧（称为条件帧）的特定对象，然后通过这两种约束方式来大致或严格地指定该对象在未来画面中的位置、形状或运动轨迹。Boximator可以作为现有视频合成模型的一个附加组件。在训练过程中，为了保留原模型的知识，我们选择冻结了原始权重，只对控制模块进行训练。
为了解决训练过程中的挑战，我们引入了一种创新的自我追踪技术，这大大简化了学习框选对象与其关联的过程。

经过实验证明，Boximator在视频质量方面（即FVD，一种视频质量评价标准）达到了行业领先水平，相较于两个基础模型有所提升，并在引入框选约束后进一步增强了效果。其在运动控制上的强大能力，通过包围盒对齐指标的显著提升得到了验证。
人类评估也显示，用户更偏好Boximator生成的视频效果，而不是基础模型的输出。

项目地址：

https://boximator.github.io/

本文地址：https://www.163264.com/6497