LearnAct:具有统一演示基准的少样本移动 GUI 代理

发表
Yuxiang ChaiYuxiang Chai 提交
作者: Guangyi LiuGuangyi Liu, pengxiang zhaoPengxiang Zhao, Liang Liu, Zhiming ChenZhiming Chen, Yuxiang ChaiYuxiang Chai, Shuai Ren, Hao Wang, SHIBO HEShibo He, Wenchao Meng

摘要

移动 GUI 代理在自动化任务方面显示出前景,但在各种真实场景中面临泛化挑战。使用大规模数据集进行预训练或微调的传统方法难以应对移动应用程序和用户特定任务的多样性。我们建议通过人类演示来增强移动 GUI 代理的能力,重点是提高在未见场景中的性能,而不是通过更大的数据集来追求通用泛化。为了实现这种范式,我们推出了 LearnGUI,这是第一个专门为研究移动 GUI 代理中基于演示的学习而设计的综合数据集,包含 2,252 个离线任务和 101 个在线任务,并附带高质量的人工演示。我们进一步开发了 LearnAct,这是一个复杂的多代理框架,可以自动从演示中提取知识以增强任务完成。该框架集成了三个专门的代理:用于知识提取的 DemoParser、用于相关知识检索的 KnowSeeker 和用于演示增强型任务执行的 ActExecutor。我们的实验结果表明,在离线和在线评估中,性能都得到了显著提高。在离线评估中,单个演示提高了模型性能,将 Gemini-1.5-Pro 的准确率从 19.3% 提高到 51.7%。在在线评估中,我们的框架将 UI-TARS-7B-SFT 的任务成功率从 18.1% 提高到 32.8%。LearnAct 框架和 LearnGUI 基准确立了基于演示的学习是更具适应性、个性化和可部署的移动 GUI 代理的有希望的方向。
查看 arXiv 页面查看 PDF

评论

Yuxiang ChaiYuxiang Chai
论文作者
论文提交者

查看 网站