IC-Effect: 通过上下文内学习实现精确高效的视频特效编辑

发表
Qi MaoQi Mao 提交
作者: LiYuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi MaoQi Mao

摘要

AI 生成总结
IC-Effect 是一个指令引导的基于 DiT 的框架,通过两阶段训练策略和时空稀疏标记化来合成复杂的视频 VFX 效果,同时保持时空一致性。
我们提出了 IC-Effect,这是一个基于指令引导的 DiT 框架,用于少样本视频 VFX 编辑,该框架可以合成复杂的特效(例如火焰、粒子和卡通人物),同时严格保持空间和时间一致性。视频 VFX 编辑极具挑战性,因为注入的效果必须与背景无缝融合,背景必须完全保持不变,并且效果模式必须从有限的配对数据中高效学习。然而,现有的视频编辑模型未能满足这些要求。IC-Effect 利用源视频作为干净的上下文条件,利用 DiT 模型的上下文学习能力来实现精确的背景保留和自然的效果注入。一个两阶段的训练策略,包括一般的编辑适应,然后通过 Effect-LoRA 进行特定效果学习,确保了强大的指令遵循和稳健的效果建模。为了进一步提高效率,我们引入了时空稀疏 token 化,从而以显著降低的计算量实现了高保真度。我们还发布了一个包含 15 种高质量视觉风格的配对 VFX 编辑数据集。广泛的实验表明,IC-Effect 提供了高质量、可控且时间上一致的 VFX 编辑,为视频创作开辟了新的可能性。
查看 arXiv 页面查看 PDF

评论