InfiGUI-G1:通过自适应探索策略优化推进 GUI 接地

发表
Yuhang LiuYuhang Liu 提交
作者: Yuhang LiuYuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai XieCongkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian HanXiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

摘要

多模态大型语言模型(MLLM)的出现推动了通过纯视觉输入在图形用户界面(GUI)上操作的自主代理的发展。一个根本性的挑战是稳健地接地自然语言指令。这需要精确的空间对齐,即准确地定位每个元素的坐标;更重要的是,需要正确的语义对齐,即指令与功能上适当的UI元素匹配。尽管带有可验证奖励的强化学习(RLVR)已被证明在改善这些MLLM的空间对齐方面是有效的,但我们发现低效的探索会阻碍语义对齐,从而阻止模型学习困难的语义关联。为了解决这个探索问题,我们提出了自适应探索策略优化(AEPO),一个新颖的策略优化框架。AEPO采用多答案生成策略来强制更广泛的探索,然后由从效率eta=U/C的第一原理导出的理论上基于的自适应探索奖励(AER)函数进行引导。我们经过AEPO训练的模型,InfiGUI-G1-3B和InfiGUI-G1-7B,在多个具有挑战性的GUI接地基准上建立了新的最先进结果,在旨在测试泛化和语义理解的基准上,相对于朴素的RLVR基线实现了高达9.0%的显著相对改进。资源可在https://github.com/InfiXAI/InfiGUI-G1获取。
查看 arXiv 页面查看 PDF

评论

Yuhang LiuYuhang Liu
论文作者
论文提交者

本文解决了 GUI 代理开发中的一个关键瓶颈:语义对齐。尽管许多模型擅长空间对齐(精确定位已知的 UI 元素),但它们往往在语义对齐方面失败,语义对齐涉及理解指令的意图以识别功能正确的元素。作者发现,标准强化学习方法存在探索效率低下的问题,经常陷入高置信度但错误的 L 选择。他们的核心解决方案,自适应探索策略优化(AEPO),通过强制模型在一次前向传递中生成多个多样化的候选答案来直接解决这个问题。这种更广泛的探索由一种新颖的自适应探索奖励(AER)函数引导,该函数源自效率原则(η=U/C),不仅奖励模型找到正确答案,还奖励其以高置信度(在候选答案中排名k较低)和最小努力(建议数量N较少)找到正确答案。