UI-Genie:一种自改进方法,用于迭代提升基于 MLLM 的移动 GUI 智能体

发表
AJ.ZhouAJ.Zhou 提交
作者: HanXiaoHan Xiao, guozhi wangGuozhi Wang, Yuxiang ChaiYuxiang Chai, Zimu LuZimu Lu, Weifeng LinWeifeng Lin, Hao He, Lue Fan, bian liuyangLiuyang Bian, Rui Hu, Liang Liu, Shuai Ren, yafei wenYafei Wen, Xiaoxin Chen, AJ.ZhouAojun Zhou, Hongsheng LIHongsheng Li

摘要

在本文中,我们介绍了 UI-Genie,一个自改进框架,旨在解决 GUI 代理中的两个关键挑战:轨迹结果验证困难和高质量训练数据难以扩展。这些挑战分别通过一个奖励模型和一个自改进管线来解决。奖励模型 UI-Genie-RM 采用图像-文本交错架构,能有效处理历史上下文并统一动作级别和任务级别奖励。为了支持 UI-Genie-RM 的训练,我们开发了精心设计的数据生成策略,包括基于规则的验证、受控轨迹损坏和困难负样本挖掘。为了解决第二个挑战,一个自改进管线通过在动态环境中进行奖励引导探索和结果验证,逐步扩展可解决的复杂 GUI 任务,从而增强代理和奖励模型。为了训练模型,我们生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k,建立了首个针对 GUI 代理的奖励专用数据集,同时展示了无需手动标注即可生成高质量合成轨迹的能力。实验结果表明,通过三代数据-模型自改进,UI-Genie 在多个 GUI 代理基准上实现了最先进的性能。我们开源了完整的框架实现和生成的数据集,以促进 https://github.com/Euphoria16/UI-Genie 中的进一步研究。
查看 arXiv 页面查看 PDF

评论

AJ.ZhouAJ.Zhou
论文作者
论文提交者

https://github.com/Euphoria16/UI-Genie