⏶19

VMem：基于曲面点索引视图记忆的一致交互式视频场景生成

06月23日发表

06月24日由 Runjia Li 提交

作者: Runjia Li, prof philip torr Philip Torr, Andrea Vedaldi, Tomas Jakab

摘要

我们提出了一种新颖的内存机制，用于构建能够交互式探索环境的视频生成器。此前类似的结果通过对场景的2D视图进行外扩绘制并逐步重建其3D几何来实现，但这会迅速累积误差；或者通过短上下文窗口的视频生成器来实现，但这难以长期保持场景连贯性。为了解决这些限制，我们引入了基于面元索引的视图记忆（VMem），这是一种通过根据其观测到的3D表面元素（面元）进行几何索引来记忆过去视图的机制。VMem能够在生成新视图时高效地检索最相关的过去视图。通过仅关注这些相关视图，我们的方法能够以使用所有过去视图作为上下文所需计算成本的一小部分，生成对想象环境的一致探索。我们在具有挑战性的长期场景合成基准上评估了我们的方法，并证明在保持场景连贯性和摄像机控制方面，我们的性能优于现有方法。

查看 arXiv 页面查看 PDF

Runjia Li

论文作者

论文提交者

项目页面：https://v-mem.github.io/

VMem：基于曲面点索引视图记忆的一致交互式视频场景生成

摘要

评论