⏶17
MotionRAG:面向视频生成的运动检索增强图像
发表
由
zhu chenhui 提交
作者:
Chenhui Zhu, Yilu Wu,
Shuai Wang, Gangshan Wu, Limin Wang
摘要
AI 生成总结
MotionRAG 通过集成参考视频中的运动先验,利用检索增强框架来增强视频生成,以可忽略的计算开销提高了运动真实性。尽管图像到视频生成在扩散模型的进步方面取得了显著进展,但生成具有逼真运动的视频仍然极具挑战性。这种困难源于准确建模运动的复杂性,这涉及到捕捉物理约束、对象交互和领域特定动态,而这些动态很难在各种场景中泛化。为了解决这个问题,我们提出了 MotionRAG,一个检索增强的框架,通过上下文感知运动适应(CAMA)从相关参考视频中调整运动先验来增强运动逼真度。关键技术创新包括:(i) 一个基于检索的管道,使用视频编码器和专用重采样器提取高级运动特征,以提炼语义运动表示;(ii) 一个通过因果 Transformer 架构实现的运动适应的上下文学习方法;(iii) 一个基于注意力的运动注入适配器,无缝地将传输的运动特征集成到预训练的视频扩散模型中。大量实验表明,我们的方法在多个领域和各种基础模型上取得了显著的改进,同时在推理时计算开销可忽略不计。此外,我们的模块化设计通过简单地更新检索数据库而不重新训练任何组件,即可实现对新领域的零样本泛化。这项研究通过实现运动先验的有效检索和传输,增强了视频生成系统的核心能力,促进了逼真运动动态的合成。
评论
论文作者
论文提交者