⏶4

UI-AGILE：通过高效强化学习和精确推理时接地推进 GUI 代理

07月29日发表

08月11日由 LianShuQuan 提交

作者: Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li

摘要

多模态大型语言模型（MLLMs）的出现极大地推动了图形用户界面（GUI）代理能力的发展。然而，现有的GUI代理训练和推理技术在推理设计、奖励无效和视觉噪声方面仍然存在困境。为了解决这些问题，我们引入了UI-AGILE，一个在训练和推理阶段都能增强GUI代理的综合框架。在训练方面，我们提出了一系列改进的监督微调（SFT）流程：1) 一个连续奖励函数，以激励高精度接地；2) 一个“简单思考”奖励，以平衡规划与速度和接地精度；以及 3) 一个基于裁剪的重采样策略，以缓解稀疏奖励问题并改进复杂任务的学习。在推理方面，我们提出了“带选择的分解接地”这一新颖方法，通过将图像分解为更小、更易于管理的部分，显著提高了高分辨率显示器上的接地精度。实验表明，UI-AGILE在ScreenSpot-Pro和ScreenSpot-v2这两个基准测试中取得了最先进的性能。例如，同时使用我们提出的训练和推理增强方法，与ScreenSpot-Pro上的最佳基线相比，接地精度提高了23%。

查看 arXiv 页面查看 PDF

LianShuQuan

论文作者

论文提交者

UI-AGILE：通过有效的强化学习和精确的推理时定位提升 GUI 智能体

[[📖 论文](https://arxiv.org/abs/2507.22025)] [[🤗 检查点](https://huggingface.co/KDEGroup/UI-AGILE)] [[🤗 数据](https://huggingface.co/datasets/KDEGroup/UI-AGILE-Data)] [[🤗 每日论文](https://huggingface.co/papers/2507.22025)] [[🚀 Github](https://github.com/KDEGroup/UI-AGILE)]

🔥 概述

UI-AGILE 通过改进训练，使用连续奖励函数、简单思维奖励和基于裁剪的重采样，以及通过带有选择的分解定位进行推理，来增强 GUI 智能体。

UI-Crop-V1.drawio.png

UI-AGILE 仅用大约 9k 个样本训练了仅仅 2 个 epoch，就展现出卓越的性能，同时还展现出强大的通用智能体能力。此外，我们的推理方法可以作为即插即用增强，适用于各种现有智能体，提高一些现有开源模型的准确性。

作为基线，应用于 UI-AGILE-7B 的标准定位方法在 30 分钟内完成了基准测试。当应用我们的方法时，分解定位阶段需要 35 分钟。随后的基于 VLM 的选择阶段需要额外的 4 分钟。开销的适度增加是我们的方法带来定位准确性大幅提高的实用权衡。

“尝试次数分布”显示了每个 GRPO 训练步骤的尝试次数分布，其中每个步骤处理两个训练样本的批次。在第一个 epoch 中，我们发现只有 61.8% 的训练步骤在首次尝试时完全成功（即批次中的两个样本都在没有重采样的情况下解决）。这意味着，如果没有我们的策略，至少有 19.1%（38.2% ÷ 2）的训练样本将无法提供学习信号。总尝试次数在第二个 epoch 中减少，这表明模型从我们方法挽救的样本中学习。

设置

我们提供 RFT 训练代码和带有选择的分解定位方法的代码，分为两个独立的模块。为了避免潜在的依赖冲突，每个模块都设计为在自己的 conda 环境中运行。

推理

```shell

cd eval

```

为了加速评估，我们将数据组织为 parquet 格式并提供评估代码。

您可以轻松地将您的模型适配到我们的管道。

eval/grounding/evalgroundingvllmnoray.py 用于定位基准（Screenspot-v2 和 Screenspot-Pro）。

eval/androidcontrol/inferenceandroidcontrolrefactored.py 用于 AndroidControl。

训练

```shell

cd train/src/scripts

bash train.sh

```

⭐️ 引用

如果您觉得这个项目有用，欢迎引用我们。

```bit

@misc{lian2025uiagileadvancingguiagents,

  title={UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding}, 

  author={Shuquan Lian and Yuhang Wu and Jia Ma and Zihan Song and Bingqi Chen and Xiawu Zheng and Hui Li},

  year={2025},

  eprint={2507.22025},

  archivePrefix={arXiv},

  primaryClass={cs.AI},

  url={https://arxiv.org/abs/2507.22025},

}

```

🤝 致谢

我们衷心感谢项目 R1-V、Open-R1 和 Open-r1-multimodal、VLM-R1 提供了它们的开源资源。

UI-AGILE：通过高效强化学习和精确推理时接地推进 GUI 代理

摘要

评论