STR-Match: 匹配时空相关性分数,用于免训练视频编辑

发表
Junsung LeeJunsung Lee 提交
作者: Junsung LeeJunsung Lee, Junoh Kang, Bohyung Han

摘要

先前的文本引导视频编辑方法经常遭受时间不一致性、运动失真,以及最显著的——有限的域转换问题。我们将这些限制归因于编辑过程中对时空像素相关性建模不足。为解决此问题,我们提出了STR-Match,这是一种免训练的视频编辑算法,它通过我们新颖的STR分数引导的潜在优化(latent optimization),生成视觉吸引且时空一致的视频。该分数通过利用文本到视频(T2V)扩散模型中的2D空间注意力(2D spatial attention)和1D时间模块(1D temporal modules)来捕捉相邻帧之间的时空像素相关性,而无需计算成本高昂的3D注意力机制的开销。STR-Match与一个包含潜在掩码(latent mask)的潜在优化框架相结合,生成时间一致且视觉逼真的视频,即使在显著的域转换下也能保持强大的性能,同时保留源的关键视觉属性。广泛的实验表明,STR-Match在视觉质量和时空一致性方面始终优于现有方法。
查看 arXiv 页面查看 PDF

评论

Junsung LeeJunsung Lee
论文作者
论文提交者

Screenshot 2025-07-01 at 3.15.20 PM.png