⏶2
FlowDirector:免训练流向引导实现精准文本到视频编辑
发表
由
Chi Zhang 提交
作者: Guangzhao Li, Yanming Yang, Chenxi Song, Chi Zhang
摘要
文本驱动的视频编辑旨在根据自然语言指令修改视频内容。尽管最近的免训练方法通过利用预训练扩散模型取得了进展,但它们通常依赖于将输入视频映射到潜在空间的基于反演的技术,这往往导致时间不一致和结构保真度下降。为了解决这个问题,我们提出了FlowDirector,一个新颖的免反演视频编辑框架。我们的框架将编辑过程建模为数据空间中的直接演化,通过常微分方程(ODE)引导视频在其固有的时空流形上平滑过渡,从而保持时间连贯性和结构细节。为了实现局部和可控的编辑,我们引入了一种注意力引导的掩蔽机制,该机制调节ODE速度场,在空间和时间上都保留非目标区域。此外,为了解决不完整的编辑并增强与编辑指令的语义对齐,我们提出了一种受分类器无关引导(Classifier-Free Guidance)启发的引导增强编辑策略,该策略利用多个候选流之间的差分信号来引导编辑轨迹,使其实现更强的语义对齐,同时不损害结构一致性。跨基准的广泛实验表明,FlowDirector在指令依从性、时间一致性和背景保留方面取得了最先进的性能,为无需反演的高效且连贯的视频编辑开创了新范式。