⏶12
Cut2Next:通过上下文调整生成下一镜头
发表
由
jwhe 提交
作者:
Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu
摘要
有效的多镜头生成需要有目的、电影般的转场和严格的电影连续性。然而,现有方法通常优先考虑基本的视觉一致性,而忽略了驱动叙事流以实现引人入胜的故事讲述的关键剪辑模式(例如,正反打、插入镜头)。这导致输出在视觉上可能连贯,但缺乏叙事复杂性和真正的电影完整性。为了弥合这一差距,我们引入了下一镜头生成(NSG):合成一个后续的高质量镜头,该镜头严格符合专业剪辑模式,同时保持严格的电影连续性。我们的框架 Cut2Next 利用 Diffusion Transformer (DiT)。它采用由新颖的分层多提示策略引导的上下文内调整。该策略使用关系提示来定义整体上下文和镜头间剪辑风格。然后,单独的提示指定每个镜头的™内容和电影摄影属性。这些共同指导 Cut2Next 生成适合电影的下一镜头。架构创新,上下文感知条件注入(CACI)和分层注意力掩码(HAM),进一步整合了这些不同的信号,而无需引入新参数。我们构建了 RawCuts(大规模)和 CuratedCuts(精炼)数据集,两者都带有分层提示,并引入 CutBench 进行评估。实验表明 Cut2Next 在视觉一致性和文本保真度方面表现出色。至关重要的是,用户研究表明对 Cut2Next 有强烈偏好,特别是对其遵守预期剪辑模式和整体电影连续性方面,验证了其生成高质量、叙事表达丰富且电影连贯的后续镜头的™能力。
Cut2Next: 通过上下文调整生成下一镜头
https://vchitect.github.io/Cut2Next-project/