FlowMo:基于方差的流引导实现视频生成中的连贯运动

发表
Hila CheferHila Chefer 提交
作者: Ariel ShaulovAriel Shaulov, Itay HazanItay Hazan, Lior Wolf, Hila CheferHila Chefer

摘要

文本到视频扩散模型在建模时间方面(例如运动、物理和动态交互)的能力存在显著限制。现有方法通过重新训练模型或引入外部条件信号来强制执行时间一致性,从而解决此限制。在这项工作中,我们探索是否可以直接从预训练模型的预测中提取有意义的时间表示,而无需任何额外的训练或辅助输入。我们引入了 FlowMo,一种新颖的免训练引导方法,它仅使用模型在每个扩散步骤中的自身预测来增强运动连贯性。FlowMo 首先通过测量对应于连续帧的潜在向量之间的距离来导出外观去偏的时间表示。这突出了模型预测的隐式时间结构。然后,它通过测量时间维度上的逐块方差来估计运动连贯性,并在采样过程中动态引导模型减少此方差。在多个文本到视频模型上的广泛实验表明,FlowMo 显著提高了运动连贯性,而不会牺牲视觉质量或提示对齐,为增强预训练视频扩散模型的时间保真度提供了一种有效的即插即用解决方案。
查看 arXiv 页面查看 PDF

评论

Hila CheferHila Chefer
论文作者
论文提交者

项目页面:https://arielshaulov.github.io/FlowMo/

开源代码 🥳:

https://github.com/arielshaulov/FlowMo