⏶9
具有各向异性感知采样的渐进式高斯 Transformer,用于开放词汇量占用预测
发表
由
YAN, Chi 提交

作者:
Chi Yan,
Dan Xu

摘要
AI 生成总结
PG-Occ 是一种渐进高斯 Transformer 框架,通过渐进式致密化和各向异性感知采样来增强 3D 占用预测,从而实现最先进的性能。三维占用预测任务近年来取得了显著进展,在基于视觉的自动驾驶系统中发挥着至关重要的作用。虽然传统方法仅限于固定的语义类别,但最近的方法已转向预测文本对齐的特征,以便在真实场景中实现开放词汇文本查询。然而,在文本对齐场景建模中存在一个权衡:稀疏高斯表示难以捕捉场景中的小物体,而密集表示会产生显著的计算开销。为了解决这些限制,我们提出了PG-Occ,一个创新的渐进式高斯Transformer框架,能够实现开放词汇三维占用预测。我们的框架采用渐进式在线致密化,这是一种前馈策略,可以逐步增强三维高斯表示,以捕捉细粒度的场景细节。通过迭代增强表示,该框架实现了越来越精确和详细的场景理解。另一个关键贡献是引入了具有时空融合的各向异性感知采样策略,该策略自适应地为不同尺度和阶段的高斯分配感受野,从而实现更有效的特征聚合和更丰富场景信息的捕获。通过广泛的评估,我们证明PG-Occ取得了最先进的性能,比之前表现最好的方法平均提高了14.3%的mIoU。代码和预训练模型将在发布后在我们的项目页面上提供:https://yanchi-3dv.github.io/PG-Occ
PG-Occ,一种渐进高斯 Transformer 框架,通过渐进致密化和各向异性感知采样来增强 3D 占用预测,取得了最先进的性能。