实时交互式视频生成的自回归对抗后训练

发表
AKAK 提交
作者: Peter LinShanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang

摘要

现有的L大型视频生成模型计算密集,阻碍了它们在实时和交互式应用中的采用。在这项工作中,我们提出自回归对抗性后训练(AAPT),将预训练的潜在视频扩散模型转换为实时、交互式视频生成器。我们的模型使用单次神经网络函数评估(1NFE)每次自回归地生成一个潜在帧。该模型可以实时向用户流式传输结果,并接收交互式响应作为控制,以生成下一个潜在帧。与现有方法不同,我们的方法探索了将对抗性训练作为自回归生成的一种有效范式。这不仅使我们能够设计出一种在充分利用KV缓存的同时、对一步生成更高效的架构,而且还能够以教师引导式(student-forcing)方式训练模型,这种方式被证明在长视频生成过程中有效减少了错误累积。我们的实验表明,我们的8B模型在单个H100上实现了736x416分辨率的实时、24帧/秒流式视频生成,或在8个H100上实现了1280x720分辨率、长达一分钟(1440帧)的视频生成。请访问我们的研究网站:https://seaweed-apt.com/2
查看 arXiv 页面查看 PDF

评论