⏶20
通过区域一致性进行 GUI 接地测试时间强化学习
发表
由
Yuchen Yan 提交

作者:
Yong Du,
Yuchen Yan, Fei Tang,
Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang,
Yongliang Shen


摘要
图形用户界面 (GUI) 接地,即将自然语言指令映射到精确屏幕坐标的任务,是自主 GUI 代理的基础。虽然现有方法通过大量的监督训练或带标记奖励的强化学习取得了强大的性能,但它们仍然受到像素级注释成本和可用性的限制。我们观察到,当模型为同一 GUI 元素生成多个预测时,空间重叠模式揭示了隐式置信度信号,可以引导更准确的定位。利用这一见解,我们提出了 GUI-RC(区域一致性),这是一种测试时间缩放方法,它从多个采样预测构建空间投票网格,以识别模型显示最高一致性的共识区域。无需任何训练,GUI-RC 在 ScreenSpot 基准测试中将各种架构的准确性提高了 2-3%。我们进一步引入了 GUI-RCPO(区域一致性策略优化),它将这些一致性模式转换为奖励,用于测试时间强化学习。通过计算每个预测与集体共识的对齐程度,GUI-RCPO 使模型能够在推理过程中在未标记数据上迭代地完善其输出。大量实验证明了我们方法的通用性:GUI-RC 将 Qwen2.5-VL-3B-Instruct 在 ScreenSpot-v2 上的性能从 80.11% 提升到 83.57%,而 GUI-RCPO 通过自监督优化将其进一步提升到 85.14%。我们的方法揭示了测试时间缩放和测试时间强化学习在 GUI 接地方面的未开发潜力,为实现更健壮和数据高效的 GUI 代理提供了有前景的途径。
我们很高兴介绍GUI-RC和GUI-RCPO,这些方法通过利用模型预测中的空间一致性来提高GUI接地精度,无需额外的训练数据,通过测试时共识投票和自监督强化学习将性能提升2-5%。
项目页面:https://zju-real.github.io/gui-rcpo/
Github:https://github.com/zju-real/gui-rcpo