⏶50
LongVie:多模态引导的可控超长视频生成
发表
由
Jianxiong Gao 提交
作者:
Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
摘要
可控的超长视频生成是一项基础而又充满挑战的任务。尽管现有方法在处理短片方面卓有成效,但由于时间不一致和视觉质量下降等问题,它们难以扩展到更长的视频。在本文中,我们首先研究并确定了三个关键因素:分离的噪声初始化、独立的控制信号归一化以及单一模态指导的局限性。为解决这些问题,我们提出了 LongVie,一个用于可控长视频生成的端到端自回归框架。LongVie 引入了两项核心设计以确保时间一致性:1) 统一的噪声初始化策略,以保持跨片段生成的一致性;2) 全局控制信号归一化,以在整个视频的控制空间中强制对齐。为缓解视觉质量下降,LongVie 采用了 3) 一个多模态控制框架,该框架集成了密集(如深度图)和稀疏(如关键点)控制信号,并辅以 4) 一个感知退化的训练策略,该策略能随时间自适应地平衡不同模态的贡献,以保持视觉质量。我们还引入了 LongVGenBench,这是一个包含 100 个高分辨率视频的综合基准测试,涵盖了多样的真实世界和合成环境,每个视频时长超过一分钟。大量实验表明,LongVie 在长距离可控性、一致性和质量方面达到了业界领先水平。
主页:https://vchitect.github.io/LongVie-project
视频:https://youtu.be/SOiTfdGmGEY
Github:https://github.com/Vchitect/LongVie