LangScene-X:通过三映射视频扩散重建可泛化的 3D 语言嵌入场景

发表
Fangfu LiuFangfu Liu 提交
作者: Fangfu Liu, Hao Li, Jiawei ChiJiawei Chi, Hanyang WangHanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan

摘要

从 2D 图像中恢复具有开放词汇场景理解的 3D 结构是一项基本但令人生畏的任务。最近的进展通过执行具有嵌入式语言信息的单场景优化实现了这一点。然而,它们严重依赖于校准的密集视图重建范式,因此在可用视图有限时,会出现严重的渲染伪影和不合理的语义合成。在本文中,我们介绍了一种新颖的生成框架,称为 LangScene-X,用于统一和生成 3D 一致的多模态信息,以用于重建和理解。凭借生成更多一致的新观测结果的生成能力,我们可以仅从稀疏视图构建可泛化的 3D 语言嵌入场景。具体来说,我们首先训练一个 TriMap 视频扩散模型,该模型可以通过渐进式知识整合从稀疏输入生成外观(RGB)、几何(法线)和语义(分割图)。此外,我们提出了一种语言量化压缩器(LQC),该压缩器在大型图像数据集上进行训练,以有效地编码语言嵌入,从而实现跨场景泛化,而无需进行单场景重新训练。最后,我们通过将语言信息对齐到 3D 场景的表面上来重建语言表面场,从而实现开放式语言查询。在真实世界数据上的大量实验表明,我们的 LangScene-X 在质量和泛化能力方面优于最先进的方法。项目页面:https://liuff19.github.io/LangScene-X
查看 arXiv 页面查看 PDF

评论