GRE Suite: 通过微调的视觉-语言模型和增强的推理链进行地理定位推理

发表
Yiren SongYiren Song 提交
作者: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan WangHaofan Wang, Yiren Song

摘要

视觉语言模型 (VLMs) 的最新进展在视觉推理任务中展示了卓越的性能。然而,地理定位带来了独特的挑战,需要从图像中提取多粒度视觉线索并将其与外部世界知识相结合进行系统推理。当前地理定位任务的方法通常缺乏稳健的推理机制和可解释性,限制了其有效性。为了解决这些局限性,我们提出了地理推理增强 (GRE) 套件,这是一个新颖的框架,通过结构化推理链增强 VLMs,以实现准确且可解释的位置推断。GRE 套件在三个关键维度上系统地开发:数据集、模型和基准。首先,我们引入了 GRE30K,一个高质量的地理定位推理数据集,旨在促进细粒度的视觉和上下文分析。接下来,我们提出了 GRE 模型,该模型采用多阶段推理策略逐步推断场景属性、局部细节和语义特征,从而以更高的精度缩小潜在的地理区域范围。最后,我们构建了地理推理评估基准 (GREval-Bench),一个全面的评估框架,用于评估 VLMs 在不同城市、自然和地标场景中的表现,衡量粗粒度(例如,国家、大陆)和细粒度(例如,城市、街道)定位性能。实验结果表明,GRE 在地理定位任务的所有粒度上显著优于现有方法,突显了推理增强型 VLMs 在复杂地理推断中的有效性。代码和数据将在 https://github.com/Thorin215/GRE 上发布。
查看 arXiv 页面查看 PDF

评论

Yiren SongYiren Song
论文提交者

视觉语言模型 (VLMs) 的最新进展在视觉推理任务中展现了卓越的性能。然而,地理定位带来了独特的挑战,需要从图像中提取多粒度视觉线索,并将其与外部世界知识相结合进行系统推理。当前解决地理定位任务的方法通常缺乏鲁棒的推理机制和可解释性,限制了它们的有效性。为了解决这些限制,我们提出了地理推理增强 (GRE) 套件,这是一个新颖的框架,通过结构化推理链增强 VLMs,以实现准确和可解释的位置推断。

GRE 套件从三个关键维度系统地开发:数据集、模型和基准。首先,我们引入了 GRE30K,一个高质量的地理定位推理数据集,旨在促进细粒度的视觉和上下文分析。接着,我们提出了 GRE 模型,该模型采用多阶段推理策略,逐步推断场景属性、局部细节和语义特征,从而以更高的精度缩小潜在的地理区域范围。最后,我们构建了地理推理评估基准 (GREval-Bench),一个综合评估框架,用于评估 VLMs 在不同城市、自然和地标场景中的表现,以衡量粗粒度(例如,国家、大洲)和细粒度(例如,城市、街道)的定位性能。实验结果表明,GRE 在地理定位任务的所有粒度上均显著优于现有方法,突显了推理增强型 VLMs 在复杂地理推断中的有效性。