⏶5
IGL-Nav:用于图像目标导航的增量式 3D 高斯定位
发表
由
Wenxuan Guo 提交

作者: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
摘要
以图像为目标的视觉导航是一个基础且具有挑战性的问题。传统方法要么依赖于端到端的强化学习,要么采用基于模块化策略,并使用拓扑图或鸟瞰图(BEV)地图作为记忆,这些方法无法完全建模已探索的3D环境与目标图像之间的几何关系。为了在3D空间中高效、准确地定位目标图像,我们基于可渲染的3D高斯(3DGS)表示构建了我们的导航系统。然而,由于3DGS优化的计算量巨大,以及6自由度(6-DoF)相机位姿的搜索空间广阔,在智能体探索过程中直接利用3DGS进行图像定位的效率极低。为此,我们提出了IGL-Nav,一个用于高效、具备3D感知的图像目标导航的增量式3D高斯定位框架。具体来说,我们随着新图像的到来,通过前馈式单目预测来增量更新场景表示。然后,我们利用几何信息进行离散空间匹配来粗略定位目标,这可以等效为高效的3D卷积。当智能体接近目标时,我们最终通过可微分渲染进行优化,解算出精确的目标位姿。在各种实验配置中,我们提出的IGL-Nav都以较大优势超越了现有的最优方法。它还能处理更具挑战性的自由视角图像目标设定,并可部署在真实世界的机器人平台上,使用手机在任意姿态捕捉目标图像。项目主页:https://gwxuan.github.io/IGL-Nav/。
已被ICCV 2025接受。项目页面:https://gwxuan.github.io/IGL-Nav/