GeoRanker:用于全球图像地理定位的距离感知排序

发表
jiapengyuejiapengyue 提交
作者: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li

摘要

全球图像地理定位——即从地球上任何地方拍摄的图像中预测GPS坐标的任务——由于不同区域视觉内容的巨大多样性而面临着一个根本性挑战。尽管现有方法通常采用检索候选和选择最佳匹配的两阶段流程,但它们通常依赖简单的相似性启发式和点式监督,未能对候选之间的空间关系进行建模。在本文中,我们提出了GeoRanker,这是一个距离感知的排序框架,它利用大型视觉-语言模型共同编码查询-候选交互并预测地理邻近度。此外,我们引入了一种多阶距离损失,通过对绝对距离和相对距离进行排序,使模型能够对结构化的空间关系进行推理。为此,我们构建了GeoRanking,这是第一个专门为地理排序任务设计并包含多模态候选信息的数据集。GeoRanker在两个成熟的基准数据集(IM2GPS3K和YFCC4K)上取得了最先进的结果,显著优于现有最佳方法。
查看 arXiv 页面查看 PDF

评论

jiapengyuejiapengyue
论文提交者

全球图像地理定位——一项根据在地球上任何地方拍摄的图像预测GPS坐标的任务——由于不同区域视觉内容的巨大多样性,带来了根本性的挑战。尽管最近的方法采用了检索候选图像和选择最佳匹配的两阶段流程,但它们通常依赖简单的相似性启发式方法和点对点监督,未能对候选图像之间的空间关系进行建模。在本文中,我们提出了 GeoRanker,一个距离感知的排序框架,它利用大型视觉-语言模型来联合编码查询-候选图像的交互并预测地理接近度。此外,我们引入了一种多阶距离损失函数,它对绝对距离和相对距离都进行排序,使模型能够对结构化的空间关系进行推理。为了支持这一点,我们构建了 GeoRanking,这是第一个专门为地理排序任务设计、包含多模态候选图像信息的数据集。GeoRanker 在两个成熟的基准测试数据集(IM2GPS3K 和 YFCC4K)上取得了最先进的结果,显著优于当前最佳方法。