⏶4
一种多模态3D占用接地由粗到精的方法
发表
由
Song Wang 提交
作者: Zhan Shi,
Song Wang, Junbo Chen, Jianke Zhu
摘要
视觉定位旨在根据自然语言描述识别场景中的物体或区域,这对于自动驾驶中的空间感知至关重要。然而,现有的视觉定位任务通常依赖于边界框,而边界框往往无法捕捉细粒度的细节。边界框内的所有体素并非都被占用,从而导致不准确的物体表示。为了解决这个问题,我们引入了一个用于挑战性室外场景中 3D 占用定位的基准。它基于 nuScenes 数据集构建,将自然语言与体素级占用注释相结合,与传统的定位任务相比,提供了更精确的物体感知。此外,我们提出了 GroundingOcc,一个通过多模态学习用于 3D 占用定位的端到端模型。它结合了视觉、文本和点云特征,从粗到精地预测物体位置和占用信息。具体来说,GroundingOcc 包含一个用于特征提取的多模态编码器、一个用于体素级预测的占用头部和一个用于细化定位的定位头部。此外,2D 定位模块和深度估计模块增强了几何理解,从而提高了模型性能。在基准测试上的大量实验表明,我们的方法在 3D 占用定位方面优于现有基线。该数据集可在 https://github.com/RONINGOD/GroundingOcc 获取。
代码和数据集:https://github.com/RONINGOD/GroundingOcc