PickStyle:利用上下文风格适配器进行视频到视频的风格迁移

发表
Soroush MehrabanSoroush Mehraban 提交
作者: Soroush MehrabanSoroush Mehraban, Vida AdeliVida Adeli, Jacob Rommann, Babak TaatiBabak Taati, Kyryl Truskovskyi

摘要

AI 生成总结
PickStyle 使用带有风格适配器和合成视频片段的扩散模型,通过文本提示执行视频风格转换,同时保留上下文和风格。
我们解决使用扩散模型进行视频风格迁移的任务,其目标是在保持输入视频上下文的同时,将其渲染成由文本提示指定的风格。一个主要的挑战是缺乏配对的视频数据进行监督。我们提出了PickStyle,一个视频到视频的风格迁移框架,它通过风格适配器来增强预训练的视频扩散主干,并受益于具有源风格对应关系的配对静态图像数据进行训练。PickStyle将低秩适配器插入到条件模块的自注意力层中,从而在保持视频内容和风格之间强大对齐的同时,实现高效的运动风格迁移。为了弥合静态图像监督和动态视频之间的差距,我们通过应用模拟相机运动的共享增强来构建配对图像的合成训练片段,确保时间先验得以保留。此外,我们引入了上下文风格无分类器引导(CS-CFG),这是一种新颖的将无分类器引导分解为独立文本(风格)和视频(上下文)方向的方法。CS-CFG确保在生成的视频中上下文得以保留,同时风格被有效迁移。在基准测试中的实验表明,我们的方法实现了在时间上连贯、风格忠实且内容保留的视频翻译,在质量和数量上均优于现有基线。
查看 arXiv 页面查看 PDF

评论

Soroush MehrabanSoroush Mehraban
论文作者
论文提交者

TL;DR:PickStyle 是一种基于扩散的视频风格迁移框架,可在应用目标视觉风格的同时保留视频上下文。它使用低秩风格适配器和配对图像的合成剪辑增强进行训练,并引入了上下文风格无条件生成(CS-CFG)来独立控制内容和风格,从而实现时间上一致且风格忠实的视频结果。

🌐项目页面:http://pickstyle.pickford.ai/