⏶7
FreeLong++: 通过多波段谱融合实现免训练长视频生成
发表
由
YL 提交
作者:
Yu Lu, Yi Yang
摘要
视频生成模型近期取得的进展已能实现从文本提示生成高质量短视频。然而,将这些模型扩展到更长的视频仍然是一个重大挑战,这主要是由于时间一致性和视觉保真度下降。我们的初步观察表明,将短视频生成模型直接应用于长序列会导致明显的质量下降。进一步分析发现,随着视频长度的增加,高频分量会变得越来越失真,我们称之为高频失真问题。为了解决这个问题,我们提出了 FreeLong,一个免训练框架,旨在在去噪过程中平衡长视频特征的频率分布。FreeLong 通过将捕捉整个视频整体语义的全局低频特征与从短时间窗口中提取的局部高频特征(用于保留精细细节)进行混合来实现这一点。在此基础上,FreeLong++ 将 FreeLong 的双分支设计扩展为多分支架构,具有多个注意力分支,每个分支在不同的时间尺度上运行。通过安排从全局到局部的多个窗口大小,FreeLong++ 实现了从低频到高频的多频带融合,确保了更长视频序列中的语义连续性和精细运动动态。无需任何额外训练,FreeLong++ 可以即插即用到现有视频生成模型(例如 Wan2.1 和 LTX-Video)中,以生成时间一致性和视觉保真度显著提高的更长视频。我们证明,在更长视频生成任务(例如,本机长度的 4 倍和 8 倍)上,我们的方法优于以前的方法。它还支持具有平滑场景过渡的连贯多提示视频生成,并支持使用长深度或姿态序列进行可控视频生成。
多分支谱域注意力融合,实现一致的长上下文和丰富的运动动态。
在基于DiT的模型上(例如Wan2.1)实现4倍到8倍更长的视频生成。
长控制序列:多提示词、姿态引导或深度引导的生成。