⏶13
LayerFlow:用于层感知视频生成的统一模型
发表
由
xichen 提交

作者:
Sihui Ji, Hao Luo,
Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao

摘要
我们提出了 LayerFlow,这是一个用于层感知视频生成的统一解决方案。给定每层提示,LayerFlow 可以为透明前景、干净背景和混合场景生成视频。它还支持多种变体,例如分解混合视频或为给定前景生成背景,反之亦然。从文本到视频扩散 Transformer 开始,我们将不同层的视频组织为子片段,并利用层嵌入来区分每个片段和相应的逐层提示。通过这种方式,我们可以在一个统一的框架中无缝支持上述变体。针对缺乏高质量逐层训练视频的问题,我们设计了一种多阶段训练策略,以适应带有高质量层标注的静态图像。具体来说,我们首先使用低质量视频数据训练模型。然后,我们调整运动 LoRA 以使模型与静态帧兼容。之后,我们在图像数据(包含高质量分层图像)与复制粘贴视频数据的混合物上训练内容 LoRA。在推理过程中,我们移除运动 LoRA,从而生成具有所需层的平滑视频。
项目页面:https://sihuiji.github.io/LayerFlow-Page/