⏶8
LoRA-Edit:通过掩码感知LoRA微调实现可控的首帧引导视频编辑
发表
由
cjeen 提交
作者: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
摘要
使用扩散模型进行视频编辑在生成高质量视频编辑方面取得了显著成果。然而,现有方法通常依赖大规模预训练,限制了特定编辑的灵活性。首帧引导编辑提供了对第一帧的控制,但对后续帧的灵活性不足。为解决此问题,我们提出了一种基于掩码的LoRA(低秩适应)微调方法,该方法将预训练的图像到视频(I2V)模型应用于灵活的视频编辑。我们的方法在保留背景区域的同时,能够实现可控的编辑传播。该解决方案提供了高效且适应性强的视频编辑,而无需更改模型架构。为了更好地引导此过程,我们引入了额外的参考,例如不同的视角或代表性场景状态,它们作为内容应如何展开的视觉锚点。我们使用一种掩码驱动的LoRA微调策略来解决控制挑战,该策略将预训练的图像到视频模型适应到编辑上下文中。模型必须从两个不同的来源学习:输入视频提供空间结构和运动线索,而参考图像提供外观指导。空间掩码通过动态调节模型关注的内容来实现区域特定的学习,确保每个区域都从适当的来源获取信息。实验结果表明,与最先进的方法相比,我们的方法在视频编辑性能方面取得了卓越表现。
项目主页:https://cjeen.github.io/LoraEditPaper/
代码:https://github.com/cjeen/LoRAEdit