WORLDMEM: 基于记忆的长期一致世界模拟

发表
zeqixiaozeqixiao 提交
作者: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi OuyangWenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan

摘要

世界模拟因其能够模拟虚拟环境和预测行为后果而日益普及。然而,有限的时间上下文窗口通常会导致在保持长期一致性方面出现失败,尤其是在保持 3D 空间一致性方面。在这项工作中,我们提出了 WorldMem,一个通过由内存单元组成的内存库增强场景生成的框架,内存单元存储内存帧和状态(例如,姿势和时间戳)。通过采用内存注意力机制,该机制有效地从这些内存帧中提取基于其状态的相关信息,我们的方法能够准确地重建先前观察到的场景,即使在显著的视点或时间间隔下也是如此。此外,通过将时间戳合并到状态中,我们的框架不仅模拟了静态世界,而且还捕捉了其随时间推移的动态演变,从而实现了模拟世界中的感知和交互。在虚拟和真实场景中的广泛实验验证了我们方法的有效性。
查看 arXiv 页面查看 PDF

评论