GUI-G^2:用于GUI对齐的高斯奖励建模

发表
Yongliang ShenYongliang Shen 提交
作者: Fei Tang, Zhangxuan Gu, Zhengxi LuZhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang ShenYongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

摘要

图形用户界面(GUI)接地将自然语言指令映射到精确的界面位置,以实现自主交互。当前的强化学习方法使用二元奖励,将元素视为“命中或未命中”目标,产生稀疏信号,忽略了空间交互的连续性。受人类点击行为自然地在目标元素周围形成高斯分布的启发,我们引入了GUI高斯接地奖励(GUI-G^2),这是一个原则性的奖励框架,它将GUI元素建模为界面平面上的连续高斯分布。GUI-G^2包含了两种协同机制:高斯点奖励通过以元素中心为中心的指数衰减分布来模拟精确的定位,而覆盖奖励则通过测量预测的高斯分布与目标区域之间的重叠来评估空间对齐。为了处理不同的元素尺寸,我们开发了一种自适应方差机制,根据元素尺寸校准奖励分布。该框架将GUI接地从稀疏的二元分类转换为密集的连续优化,其中高斯分布生成丰富的梯度信号,引导模型达到最佳交互位置。在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基准测试中进行的广泛实验表明,GUI-G^2显著优于最先进的UI-TARS-72B方法,在ScreenSpot-Pro上取得了24.7%的最显著改进。我们的分析表明,连续建模为界面变化提供了卓越的鲁棒性,并增强了对未见布局的泛化能力,为GUI交互任务中的空间推理建立了新范式。
查看 arXiv 页面查看 PDF

评论

Yongliang ShenYongliang Shen
论文作者
论文提交者
FlySugarFlySugar

好论文!

wuxingyuwuxingyu

一个非常鼓舞人心的工作!

engene changengene chang

太棒了!