长视频生成的上下文混合

发表
Shengqu CaiShengqu Cai 提交
作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

摘要

长视频生成本质上是一个长上下文记忆问题:模型必须在长范围内保留和检索显着事件,而不会崩溃或漂移。然而,将扩散 Transformer 扩展到生成长上下文视频,其根本限制在于自注意力的二次成本,这使得内存和计算难以处理和优化长序列。我们将长上下文视频生成重新定义为一个内部信息检索任务,并提出一个简单、可学习的稀疏注意力路由模块 Mixture of Contexts (MoC),作为有效的长期记忆检索引擎。在 MoC 中,每个查询动态地选择一些信息丰富的块以及强制性的锚点(字幕、局部窗口)进行关注,并通过因果路由防止环路闭合。随着我们扩展数据并逐渐稀疏化路由,模型将计算分配给显着的历史记录,在数分钟的内容中保留身份、动作和场景。效率是检索的副产品(接近线性缩放),这使得实际的训练和合成成为可能,并在数分钟的规模上实现了记忆和一致性。
查看 arXiv 页面查看 PDF

评论

Shengqu CaiShengqu Cai
论文提交者

https://primecai.github.io/moc/