打破数据壁垒 -- 通过任务泛化构建GUI代理

04月14日发表
04月15日由 Junlei ZhangJunlei Zhang 提交
作者: Junlei ZhangJunlei Zhang, Zichen DingZichen Ding, Chang MaChang Ma, Zijie Chen, QiushiQiushi Sun, Zhenzhong Lan, Junxian HeJunxian He

摘要

图形用户界面 (GUI) 代理为自动化复杂的数字任务提供跨平台解决方案,具有改变生产力工作流程的巨大潜力。然而,它们的性能常常受到高质量轨迹数据稀缺的限制。为了解决这一局限性,我们提出在专门的中间训练阶段,在数据丰富、推理密集的任务上训练视觉语言模型 (VLM),然后研究整合这些任务如何促进 GUI 规划场景的泛化。具体而言,我们探索了一系列具有现成指令调整数据的任务,包括 GUI 感知、多模态推理和文本推理。通过对 11 个中间训练任务进行的大量实验,我们证明了:(1)任务泛化被证明非常有效,在大多数设置中都产生了显著的改进。例如,多模态数学推理将 AndroidWorld 上的性能绝对提升了 6.3%。值得注意的是,纯文本数学数据显著提升了 GUI 网络代理的性能,在 WebArena 上实现了 5.6% 的提升,在 AndroidWorld 上实现了 5.4% 的提升,突出了从基于文本到视觉领域的显著跨模态泛化;(2)与先前的假设相反,GUI 感知数据——以前被认为与 GUI 代理任务密切相关并广泛用于训练——对最终性能的影响相对有限;(3)基于这些见解,我们确定了最有效的中间训练任务,并策划了优化的混合数据集,从而在 WebArena 上实现了 8.0% 的绝对性能提升,在 AndroidWorld 上实现了 12.2% 的绝对性能提升。我们的工作为 GUI 代理的跨领域知识转移提供了宝贵的见解,并为解决这个新兴领域的数据稀缺挑战提供了一种实用的方法。代码、数据和模型将在 https://github.com/hkust-nlp/GUIMid 上提供。
查看 arXiv 页面查看 PDF

评论

Junlei ZhangJunlei Zhang
论文作者
论文提交者

我们已在 https://github.com/hkust-nlp/GUIMid 发布了我们的数据