⏶22
Voyager: 用于可探索 3D 场景生成的长距离和世界一致视频扩散
发表
由
Tianyu Huang 提交
作者:
Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
摘要
视频游戏和虚拟现实等现实世界应用,通常要求能够对用户可沿自定义摄像机轨迹探索的3D场景进行建模。尽管在从文本或图像生成3D对象方面取得了显著进展,但创建长程、3D一致、可探索的3D场景仍然是一个复杂且具挑战性的问题。在这项工作中,我们提出了Voyager,一个新颖的视频扩散框架,它能从单张图像和用户定义的摄像机路径生成世界一致的3D点云序列。与现有方法不同,Voyager实现了端到端的场景生成和重建,并具有固有的帧间一致性,从而无需3D重建管线(例如,运动恢复结构或多视角立体)。我们的方法整合了三个关键组件:1) 世界一致视频扩散:一个统一的架构,它共同生成对齐的RGB和深度视频序列,并以现有世界观测为条件,以确保全局连贯性;2) 长程世界探索:一个高效的世界缓存,具有点剔除功能,以及带有平滑视频采样的自回归推理,用于迭代场景扩展,实现上下文感知的一致性;以及3) 可扩展数据引擎:一个视频重建管线,可自动化任意视频的摄像机姿态估计和度量深度预测,从而无需手动3D标注即可实现大规模、多样化的训练数据策展。总的来说,这些设计在视觉质量和几何精度方面比现有方法有了显著改进,并具有广泛的应用前景。
项目页面:https://voyager-world.github.io