LumosFlow: 运动引导的长视频生成

发表
Hangjie YuanHangjie Yuan 提交
作者: Jiahao Chen, Hangjie YuanHangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su

摘要

长视频生成因其在娱乐和模拟等领域的广泛应用而获得越来越多的关注。尽管取得了进展,但合成时间连贯且视觉引人入胜的长序列仍然是一个艰巨的挑战。传统方法通常通过顺序生成和拼接短片段,或生成关键帧然后以分层方式插值中间帧来合成长视频。然而,两者都仍面临重大挑战,导致诸如时间重复或不自然过渡等问题。在本文中,我们重新审视了分层长视频生成管线,并引入了LumosFlow,这是一个明确引入运动指导的框架。具体来说,我们首先采用大运动文本到视频扩散模型(LMTV-DM)来生成具有较大运动间隔的关键帧,从而确保生成长视频中的内容多样性。鉴于插值关键帧之间上下文过渡的复杂性,我们进一步将中间帧插值分解为运动生成和事后细化。对于每一对关键帧,潜在光流扩散模型(LOF-DM)合成复杂且大运动的光流,而MotionControlNet随后对形变结果进行细化,以提高质量并指导中间帧生成。与传统视频帧插值相比,我们实现了15倍的插值,确保相邻帧之间合理且连续的运动。实验表明,我们的方法可以生成具有一致运动和外观的长视频。代码和模型将在论文接受后公开。我们的项目页面:https://jiahaochen1.github.io/LumosFlow/
查看 arXiv 页面查看 PDF

评论

Hangjie YuanHangjie Yuan
论文作者
论文提交者

项目页面:https://jiahaochen1.github.io/LumosFlow/