⏶4
UI-AGILE:通过高效强化学习和精确推理时接地推进 GUI 代理
发表
由
LianShuQuan 提交
作者:
Shuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li
摘要
多模态大型语言模型(MLLMs)的出现极大地推动了图形用户界面(GUI)代理能力的发展。然而,现有的GUI代理训练和推理技术在推理设计、奖励无效和视觉噪声方面仍然存在困境。为了解决这些问题,我们引入了UI-AGILE,一个在训练和推理阶段都能增强GUI代理的综合框架。在训练方面,我们提出了一系列改进的监督微调(SFT)流程:1) 一个连续奖励函数,以激励高精度接地;2) 一个“简单思考”奖励,以平衡规划与速度和接地精度;以及 3) 一个基于裁剪的重采样策略,以缓解稀疏奖励问题并改进复杂任务的学习。在推理方面,我们提出了“带选择的分解接地”这一新颖方法,通过将图像分解为更小、更易于管理的部分,显著提高了高分辨率显示器上的接地精度。实验表明,UI-AGILE在ScreenSpot-Pro和ScreenSpot-v2这两个基准测试中取得了最先进的性能。例如,同时使用我们提出的训练和推理增强方法,与ScreenSpot-Pro上的最佳基线相比,接地精度提高了23%。
UI-AGILE 通过改进训练,使用连续奖励函数、简单思维奖励和基于裁剪的重采样,以及通过带有选择的分解定位进行推理,来增强 GUI 智能体。
UI-AGILE 仅用大约 9k 个样本训练了仅仅 2 个 epoch,就展现出卓越的性能,同时还展现出强大的通用智能体能力。此外,我们的推理方法可以作为即插即用增强,适用于各种现有智能体,提高一些现有开源模型的准确性。
作为基线,应用于 UI-AGILE-7B 的标准定位方法在 30 分钟内完成了基准测试。当应用我们的方法时,分解定位阶段需要 35 分钟。随后的基于 VLM 的选择阶段需要额外的 4 分钟。开销的适度增加是我们的方法带来定位准确性大幅提高的实用权衡。
“尝试次数分布”显示了每个 GRPO 训练步骤的尝试次数分布,其中每个步骤处理两个训练样本的批次。在第一个 epoch 中,我们发现只有 61.8% 的训练步骤在首次尝试时完全成功(即批次中的两个样本都在没有重采样的情况下解决)。这意味着,如果没有我们的策略,至少有 19.1%(38.2% ÷ 2)的训练样本将无法提供学习信号。总尝试次数在第二个 epoch 中减少,这表明模型从我们方法挽救的样本中学习。
我们提供 RFT 训练代码和带有选择的分解定位方法的代码,分为两个独立的模块。为了避免潜在的依赖冲突,每个模块都设计为在自己的 conda 环境中运行。
```shell
cd eval
```
为了加速评估,我们将数据组织为 parquet 格式并提供评估代码。
您可以轻松地将您的模型适配到我们的管道。
eval/grounding/evalgroundingvllmnoray.py 用于定位基准(Screenspot-v2 和 Screenspot-Pro)。
eval/androidcontrol/inferenceandroidcontrolrefactored.py 用于 AndroidControl。
```shell
cd train/src/scripts
bash train.sh
```
如果您觉得这个项目有用,欢迎引用我们。
```bit
@misc{lian2025uiagileadvancingguiagents,
}
```
我们衷心感谢项目 R1-V、Open-R1 和 Open-r1-multimodal、VLM-R1 提供了它们的开源资源。