⏶22

长视频故事生成综述：架构、一致性与电影级质量

07月09日发表

07月11日由 Franck Dernoncourt 提交

作者: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, taesiri Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

摘要

尽管视频生成模型取得了显著进展，但现有的最先进方法仍只能生成时长为5-16秒的视频，这些视频常被称为“长视频”。此外，时长超过16秒的视频在整个叙事过程中难以保持角色外观和场景布局的一致性。特别是，多主体长视频仍无法保持角色一致性和动作连贯性。尽管有些方法可以生成长达150秒的视频，但它们通常存在帧冗余和时间多样性不足的问题。最近的工作试图生成具有多角色、叙事连贯性和高保真细节的长视频。我们全面研究了32篇关于视频生成的论文，以识别能够始终产生这些质量的关键架构组件和训练策略。我们还构建了一个全面的现有方法新分类体系，并提供了根据论文的架构设计和性能特征对其进行分类的比较表格。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

此评论已隐藏。