通过显式的定位到坐标映射改进 GUI 基础

发表
taesiritaesiri 提交
作者: Suyuchen WangSuyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian

摘要

AI 生成总结
显式的坐标标记和改进的空间编码增强了跨不同分辨率和平台的 GUI 基础准确性。
GUI 落地(GUI grounding),即自然语言指令映射到像素坐标的任务,对于自主代理至关重要,但对目前的视觉语言模型(VLM)来说仍然很困难。核心瓶颈是可靠的块到像素映射,这在推断到训练期间未见过的高分辨率显示器时会失效。当前的方法直接从视觉特征生成文本标记作为坐标,迫使模型隐式地推断复杂的定位到像素的映射;因此,在新的分辨率下,准确性会下降,失败会蔓延。我们通过两项互补的创新来解决这个问题。首先,RULER 标记充当显式的坐标标记,让模型能够像地图上的网格线一样引用位置,并进行调整而不是从头开始生成坐标。其次,交错 MRoPE(I-MRoPE)通过确保宽度和高度维度得到同等表示来改进空间编码,解决了标准位置方案的对称性问题。在 ScreenSpot、ScreenSpot-V2 和 ScreenSpot-Pro 上的实验显示,落地准确性持续提高,在高分辨率界面上的改进最为显著。通过提供显式的空间指导而不是依赖隐式学习,我们的方法能够实现跨不同分辨率和平台的更可靠的 GUI 自动化。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

GUI 基础定位(GUI grounding),即自然语言指令到像素坐标的映射任务,对于自主代理至关重要,但对当前的多模态大型语言模型(VLM)来说仍然具有挑战性。核心瓶颈在于可靠的块到像素映射,这在推断到训练期间未见的更高分辨率显示时会失效。当前的方法直接从视觉特征生成坐标作为文本标记,迫使模型隐式地推断复杂的定位到像素映射;结果是,在新的分辨率下,准确性会下降,并且会频繁出现失败。我们通过两项互补的创新来解决这个问题。首先,RULER 标记作为显式的坐标标记,让模型能够像地图上的网格线一样引用位置,并进行调整而不是从头生成坐标。其次,交错 MRoPE(I-MRoPE)通过确保宽度和高度维度被平等地表示来改进空间编码,解决了标准位置方案的对称性问题。在 ScreenSpot、ScreenSpot-V2 和 ScreenSpot-Pro 上的实验表明,基础定位准确性持续提高,在更高分辨率的界面上改进最大。通过提供显式的空间指导,而不是依赖隐式学习,我们的方法能够跨越不同的分辨率和平台实现更可靠的 GUI 自动化。