⏶20
GenCompositor:基于扩散 Transformer 的生成视频合成
发表
由
Xiaoyu Li 提交
作者:
Shuzhou Yang,
Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
摘要
视频合成通过将实景素材结合起来创造视频制作,是视频创作和电影制作中的一项关键技术。传统的流程需要大量的人工和专家协作,导致生产周期长和人力成本高。为了解决这个问题,我们使用生成模型来实现这一过程的自动化,称为生成视频合成。这项新任务旨在以交互方式自适应地将前景视频的身份和运动信息注入目标视频,允许用户自定义添加到最终视频的动态元素的尺寸、运动轨迹和其他属性。具体来说,我们基于其内在特性设计了一个新颖的扩散 Transformer(DiT)流程。为了在编辑前后保持目标视频的一致性,我们使用掩码令牌注入(masked token injection)修改了一个轻量级的基于 DiT 的背景保留分支。为了继承来自其他源的动态元素,我们提出了一种使用全自注意力(full self-attention)的 DiT 融合块,并辅以一个简单而有效的用于训练的前景增强。此外,为了根据用户控制融合具有不同布局的背景和前景视频,我们开发了一种名为扩展旋转位置嵌入(Extended Rotary Position Embedding,ERoPE)的新型位置嵌入。最后,我们为这项新任务整理了一个包含 61,000 套视频的数据集,称为 VideoComp。这些数据包括完整的动态元素和高质量的目标视频。实验表明,我们的方法有效地实现了生成视频合成,在保真度和一致性方面优于现有的解决方案。
GenCompositor 能够轻松地根据用户指定的轨迹和比例组合不同的视频。