⏶1
GeoDistill:用于弱监督跨视图定位的几何引导自蒸馏
发表
由
tsw 提交
作者:
Shaowen Tong,
Zimin Xia,
Alexandre Alahi, Xuming He, Yujiao Shi
摘要
跨视角定位,即通过将地面图像与卫星图像对齐来估计相机 3 自由度 (3-DoF) 姿态的任务,对于自动导航和增强现实等大规模户外应用至关重要。现有方法通常依赖于完全监督学习,这需要昂贵的地面真实姿态标注。在这项工作中,我们提出了 GeoDistill,一个几何引导的弱监督自蒸馏框架,它使用基于视场 (FoV) 掩蔽的教师-学生学习来增强局部特征学习,以实现鲁棒的跨视角定位。在 GeoDistill 中,教师模型定位全景图像,而学生模型从通过 FoV 掩蔽创建的有限 FoV 对应图像中预测位置。通过将学生的预测与教师的预测对齐,学生专注于车道线等关键特征,并忽略无纹理区域(如道路)。这使得预测更准确,不确定性更低,无论查询图像是全景图还是有限 FoV 图像。我们的实验表明,GeoDistill 显著提高了不同框架下的定位性能。此外,我们引入了一种新颖的姿态估计网络,无需精确的平面位置地面真实数据即可预测相对姿态。GeoDistill 为现实世界中的跨视角定位挑战提供了一个可扩展且高效的解决方案。代码和模型可在 <a href="https://github.com/tongshw/GeoDistill">https://github.com/tongshw/GeoDistill</a> 找到。
跨视图定位是估计相机 3 自由度(3-DoF)位姿的任务,通过将地面图像与卫星图像对齐,这对于自动导航和增强现实等大规模户外应用至关重要。现有方法通常依赖于完全监督学习,这需要昂贵的真实位姿标注。在这项工作中,我们提出了 GeoDistill,一个几何引导的弱监督自蒸馏框架,它使用基于视野(FoV)掩码的教师-学生学习来增强局部特征学习,以实现鲁棒的跨视图定位。在 GeoDistill 中,教师模型定位全景图像,而学生模型从通过基于 FoV 掩码创建的有限 FoV 对应物中预测位置。通过将学生的预测与教师的预测对齐,学生专注于车道线等关键特征,并忽略道路等无纹理区域。这使得预测更准确,不确定性更低,无论查询图像是全景图还是有限 FoV 图像。我们的实验表明,GeoDistill 显著提高了不同框架下的定位性能。此外,我们引入了一种新颖的姿态估计网络,无需精确的平面位置真实值即可预测相对姿态。GeoDistill 为现实世界的跨视图定位挑战提供了可扩展且高效的解决方案。代码和模型可在 https://github.com/tongshw/GeoDistill 上找到。