⏶45
ZeroGUI:以零人力成本自动化在线GUI学习
发表
由
Chenyu Yang 提交

作者:
Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai

摘要
大型视觉-语言模型(VLMs)的快速发展推动了纯视觉GUI智能体的开发,这些智能体能够感知和操作图形用户界面(GUI),从而自主完成用户指令。然而,现有方法通常采用离线学习框架,面临两个核心局限性:(1)严重依赖高质量人工标注进行元素定位和动作监督,以及(2)对动态交互环境的适应性有限。为了解决这些局限性,我们提出了ZeroGUI,一个可扩展的在线学习框架,以零人工成本自动化GUI智能体训练。具体来说,ZeroGUI整合了(i)基于VLM的自动化任务生成,以从当前环境状态生成多样化的训练目标,(ii)基于VLM的自动化奖励估计,无需手动设计的评估函数即可评估任务成功,以及(iii)两阶段在线强化学习,以持续与GUI环境交互并从中学习。在两个先进的GUI智能体(UI-TARS和Aguvis)上的实验表明,ZeroGUI在OSWorld和AndroidLab环境中的性能显著提升。代码可在 https://github.com/OpenGVLab/ZeroGUI 获取。
ZeroGUI,一个全自动在线强化学习框架,使GUI代理能够在交互式环境中以零人工成本进行训练和适应。