LongLive:实时交互式长视频生成

发表
SyangSyang 提交
作者: Shuai Yang, Wei HuangWei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang, Muyang LiMuyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han, YukangChenYukang Chen

摘要

AI 生成总结
LongLive 是一个用于实时交互式长视频生成的帧级自回归框架,通过因果注意力、KV-recache、流式长调优和短窗口注意力来解决效率和质量挑战。
我们提出了 LongLive,一个用于实时交互式长视频生成的帧级自回归 (AR) 框架。长视频生成在效率和质量方面都面临挑战。扩散模型和扩散强制模型可以生成高质量的视频,但由于双向注意力,效率低下。因果注意力 AR 模型支持 KV 缓存以加快推理速度,但由于长视频训练期间的内存挑战,在长视频上质量通常会下降。此外,除了静态提示式生成之外,交互功能(例如流式提示输入)对于动态内容创作至关重要,使用户能够实时指导叙事。这种交互需求极大地增加了复杂性,尤其是在提示转换期间确保视觉一致性和语义连贯性方面。为了应对这些挑战,LongLive 采用了因果、帧级 AR 设计,该设计集成了 KV 重新缓存机制,该机制使用新提示刷新缓存状态以实现平滑、一致的切换;流式长调优以实现长视频训练并对齐训练和推理(训练-长-测试-长);以及短窗口注意力与帧级注意力接收器配对,缩短为帧接收器,在实现更快生成的同时保持长程一致性。通过这些关键设计,LongLive 仅用 32 个 GPU 天就将一个 13 亿参数的短片段模型微调为分钟级生成。在推理时,LongLive 在单个 NVIDIA H100 上可持续达到 20.7 FPS,在短视频和长视频的 VBench 上均取得强劲表现。LongLive 在单个 H100 GPU 上支持长达 240 秒的视频。LongLive 进一步支持 INT8 量化推理,仅有边际的质量损失。
查看 arXiv 页面查看 PDF

评论