ZeroGUI:以零人力成本自动化在线GUI学习

发表
Chenyu YangChenyu Yang 提交
作者: Chenyu YangChenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai

摘要

大型视觉-语言模型(VLMs)的快速发展推动了纯视觉GUI智能体的开发,这些智能体能够感知和操作图形用户界面(GUI),从而自主完成用户指令。然而,现有方法通常采用离线学习框架,面临两个核心局限性:(1)严重依赖高质量人工标注进行元素定位和动作监督,以及(2)对动态交互环境的适应性有限。为了解决这些局限性,我们提出了ZeroGUI,一个可扩展的在线学习框架,以零人工成本自动化GUI智能体训练。具体来说,ZeroGUI整合了(i)基于VLM的自动化任务生成,以从当前环境状态生成多样化的训练目标,(ii)基于VLM的自动化奖励估计,无需手动设计的评估函数即可评估任务成功,以及(iii)两阶段在线强化学习,以持续与GUI环境交互并从中学习。在两个先进的GUI智能体(UI-TARS和Aguvis)上的实验表明,ZeroGUI在OSWorld和AndroidLab环境中的性能显著提升。代码可在 https://github.com/OpenGVLab/ZeroGUI 获取。
查看 arXiv 页面查看 PDF

评论

Chenyu YangChenyu Yang
论文作者
论文提交者

ZeroGUI,一个全自动在线强化学习框架,使GUI代理能够在交互式环境中以零人工成本进行训练和适应。