LangSplatV2:450+ FPS高维3D语言高斯泼溅

发表
Wanhua LiWanhua Li 提交
作者: Wanhua LiWanhua Li, Yujie Zhao, Minghan Qin, Yang Liu, Yuanhao Cai, Chuang Gan, Hanspeter Pfister

摘要

本文介绍了 LangSplatV2,它在处理高分辨率图像时,能以 476.2 FPS 的速度实现高维特征溅射(feature splatting),并以 384.6 FPS 的速度进行 3D 开放词汇文本查询,相比 LangSplat 分别提供了 42 倍的速度提升和 47 倍的性能增强,同时提高了查询精度。LangSplat 利用高斯溅射(Gaussian Splatting)将 2D CLIP 语言特征嵌入到 3D 中,显著提高了速度,并学习了一个具有 SAM 语义的精确 3D 语言场。3D 语言场的这些进展对于需要在复杂场景中进行语言交互的应用至关重要。然而,LangSplat 即使在使用先进的 A100 GPU 时,也未能实现实时推理性能(8.2 FPS),这严重限制了其更广泛的应用。在本文中,我们首先对 LangSplat 进行了详细的时间分析,将重量级解码器(heavyweight decoder)确定为主要的性能瓶颈。我们的解决方案 LangSplatV2 假设每个高斯(Gaussian)都作为全局字典中的一个稀疏码,从而学习一个 3D 稀疏系数场,这完全消除了对重量级解码器的需求。通过利用这种稀疏性,我们进一步提出了一种高效的稀疏系数溅射方法,并结合了 CUDA 优化,能够在高质量地渲染高维特征图的同时,仅产生溅射超低维特征的时间成本。我们的实验结果表明,LangSplatV2 不仅实现了更好或具有竞争力的查询精度,而且速度显著更快。代码和演示可在我们的项目页面获取:https://langsplat-v2.github.io
查看 arXiv 页面查看 PDF

评论