⏶88
Self-Forcing++:迈向分钟级高质量视频生成
发表
由
cuijiaxing 提交
作者: Justin Cui,
Jie Wu,
Ming Li, Tao Yang, Xiaojie Li,
Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh


摘要
AI 生成总结
提出了一种方法,通过使用从自生成长视频中采样的片段来指导学生模型,从而增强长视野视频生成,在没有额外监督或重新训练的情况下保持了质量和一致性。扩散模型彻底改变了图像和视频生成,实现了前所未有的视觉质量。然而,它们对 Transformer 架构的依赖导致计算成本过高,尤其是在将生成扩展到长视频时。最近的研究探索了长视频生成的自回归公式,通常是通过从短视线双向教师那里提炼出来的。尽管如此,鉴于教师模型无法合成长视频,学生模型超出其训练视线的外推通常会导致质量明显下降,这是由于连续潜在空间中错误的累积所致。在本文中,我们提出了一种简单而有效的方法来缓解长视线视频生成中的质量下降,而无需长视频教师的监督或在长视频数据集上重新训练。我们的方法侧重于利用教师模型的丰富知识,通过从自生成长视频中提取的样本片段来指导学生模型。我们的方法在将视频长度扩展到教师能力范围的 20 倍的同时保持了时间一致性,避免了像以前的方法那样的过曝光和错误累积等常见问题。当扩展计算时,我们的方法显示生成长达 4 分钟 15 秒的视频的能力,相当于我们基础模型位置嵌入支持的最大范围的 99.9%,比我们基线模型的范围长 50 倍以上。在标准基准和我们提出的改进基准上的实验表明,我们的方法在保真度和一致性方面都显著优于基线方法。我们的长视线视频演示可以在 https://self-forcing-plus-plus.github.io/ 找到。
请访问我们的项目页面:https://self-forcing-plus-plus.github.io/,谢谢!