Matrix-3D:全向可探索的 3D 世界生成

发表
wenhang gewenhang ge 提交
作者: Zhongqi.YangZhongqi Yang, wenhang geWenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, anMengyin An, 老kFei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, haoxiang guoHao-Xiang Guo, Yahui Zhou

摘要

从单个图像或文本提示生成可探索的 3D 世界是空间智能的基石。最近的工作利用视频模型实现宽泛且可泛化的 3D 世界生成。然而,现有方法通常受限于生成场景的有限范围。在这项工作中,我们提出了 Matrix-3D,一个利用全景表示进行宽覆盖全向可探索 3D 世界生成的框架,它结合了条件视频生成和全景 3D 重建。我们首先训练一个轨迹引导的全景视频扩散模型,该模型以场景网格渲染作为条件,以实现高质量和几何一致的场景视频生成。为了将全景场景视频提升到 3D 世界,我们提出了两种独立的方法:(1)一种用于快速 3D 场景重建的前馈大型全景重建模型,以及(2)一种用于精确和详细 3D 场景重建的基于优化的管道。为了促进有效训练,我们还引入了 Matrix-Pano 数据集,这是第一个大型合成数据集,包含 116K 高质量静态全景视频序列,带有深度和轨迹注释。大量实验表明,我们提出的框架在全景视频生成和 3D 世界生成方面取得了最先进的性能。更多内容请参见 https://matrix-3d.github.io
查看 arXiv 页面查看 PDF
Matrix-3D:全向可探索的 3D 世界生成

评论

wenhang gewenhang ge
论文作者
论文提交者

从单张图像或文本提示生成可探索的3D世界是空间智能的基石。最近的工作利用视频模型实现广范围、可泛化的3D世界生成。然而,现有方法通常在生成的场景中范围有限。在这项工作中,我们提出了Matrix-3D,一个利用全景表示进行广覆盖全向可探索3D世界生成的框架,它结合了条件视频生成和全景3D重建。我们首先训练一个轨迹引导的全景视频扩散模型,该模型采用场景网格渲染作为条件,以实现高质量和几何一致的场景视频生成。为了将全景场景视频提升到3D世界,我们提出了两种独立的方法:(1)用于快速3D场景重建的前馈大型全景重建模型和(2)用于准确详细3D场景重建的基于优化的流水线。为了促进有效训练,我们还引入了Matrix-Pano数据集,这是第一个大规模合成数据集,包含11.6万个高质量静态全景视频序列,带有深度和轨迹注释。大量实验表明,我们提出的框架在全景视频生成和3D世界生成方面取得了最先进的性能。