⏶174
LongLive:实时交互式长视频生成
发表
由
Syang 提交
作者: Shuai Yang,
Wei Huang, Ruihang Chu, Yicheng Xiao, Yuyang Zhao, Xianbang Wang,
Muyang Li, Enze Xie, Yingcong Chen, Yao Lu, Song Han,
Yukang Chen



摘要
AI 生成总结
LongLive 是一个用于实时交互式长视频生成的帧级自回归框架,通过因果注意力、KV-recache、流式长调优和短窗口注意力来解决效率和质量挑战。我们提出了 LongLive,一个用于实时交互式长视频生成的帧级自回归 (AR) 框架。长视频生成在效率和质量方面都面临挑战。扩散模型和扩散强制模型可以生成高质量的视频,但由于双向注意力,效率低下。因果注意力 AR 模型支持 KV 缓存以加快推理速度,但由于长视频训练期间的内存挑战,在长视频上质量通常会下降。此外,除了静态提示式生成之外,交互功能(例如流式提示输入)对于动态内容创作至关重要,使用户能够实时指导叙事。这种交互需求极大地增加了复杂性,尤其是在提示转换期间确保视觉一致性和语义连贯性方面。为了应对这些挑战,LongLive 采用了因果、帧级 AR 设计,该设计集成了 KV 重新缓存机制,该机制使用新提示刷新缓存状态以实现平滑、一致的切换;流式长调优以实现长视频训练并对齐训练和推理(训练-长-测试-长);以及短窗口注意力与帧级注意力接收器配对,缩短为帧接收器,在实现更快生成的同时保持长程一致性。通过这些关键设计,LongLive 仅用 32 个 GPU 天就将一个 13 亿参数的短片段模型微调为分钟级生成。在推理时,LongLive 在单个 NVIDIA H100 上可持续达到 20.7 FPS,在短视频和长视频的 VBench 上均取得强劲表现。LongLive 在单个 H100 GPU 上支持长达 240 秒的视频。LongLive 进一步支持 INT8 量化推理,仅有边际的质量损失。
https://cdn-uploads.huggingface.co/production/uploads/634ce90e741a5e37886a19e3/pDyf4rcQNSeFUp5v6BSC2.mp4
论文:https://arxiv.org/abs/2509.22622
代码:https://github.com/NVlabs/LongLive
模型:https://huggingface.co/Efficient-Large-Model/LongLive-1.3B
演示页面:https://nvlabs.github.io/LongLive
介绍视频:https://www.youtube.com/watch?v=CO1QC7BNvig