具有长期空间记忆的视频世界模型

发表
Jiaqi WangJiaqi Wang 提交
作者: Tong Wu, Shuai YangShuai Yang, Ryan Po, Yinghao Xu, Ziwei Liu, Dahua Lin, Gordon Wetzstein

摘要

新兴的世界模型能够自回归地根据动作(例如相机移动和文本提示,以及其他控制信号)生成视频帧。由于时间上下文窗口大小有限,这些模型在回访时往往难以保持场景一致性,导致对先前生成环境的严重遗忘。受人类记忆机制的启发,我们引入了一个新颖的框架,通过基于几何的长期空间记忆来增强视频世界模型的长期一致性。我们的框架包括从长期空间记忆中存储和检索信息的机制,并且我们策划了自定义数据集来训练和评估具有明确存储的 3D 记忆机制的世界模型。我们的评估显示,与相关基线相比,质量、一致性和上下文长度均有所提高,为长期一致的世界生成铺平了道路。
查看 arXiv 页面查看 PDF

评论

Jiaqi WangJiaqi Wang
论文提交者

项目页面:https://spmem.github.io/