ScaleCUA: 使用跨平台数据扩展开源计算机使用代理

发表
taesiritaesiri 提交
作者: Zhaoyang LiuZhaoyang Liu, JingJing XieJingJing Xie, Zichen DingZichen Ding, Zehao Li, ybwBowen Yang, Zhenyu Wu, Xuehui Wang, QiushiQiushi Sun, Shi Liu, Weiyun WangWeiyun Wang, YeshenglongShenglong Ye, Qingyun LiQingyun Li, Zeyue Tian, Gen Luo, Xiangyu YueXiangyu Yue, Biqing QiBiqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang

摘要

AI 生成总结
ScaleCUA 是一个针对计算机使用智能体的大规模数据集和模型,它通过利用数据驱动的扩展,在多个平台和任务中取得了最先进的性能。
视觉语言模型(VLM)催生了能够自主操作图形用户界面(GUI)的计算机使用代理(CUA),展现出巨大的潜力,但由于缺乏大规模、开源的计算机使用数据和基础模型,进展受到限制。在本研究中,我们引入ScaleCUA,这是向大规模开源CUA迈进的一步。它提供了一个跨越6个操作系统和3个任务领域的大规模数据集,通过一个结合了自动化代理和人类专家的闭环流水线构建。在这些扩充的数据上训练的ScaleCUA,可以在不同平台之间无缝操作。具体而言,它在WebArena-Lite-v2上比基线模型提高了+26.6%,在ScreenSpot-Pro上提高了+10.7%,并在MMBench-GUI L1-Hard上取得了94.4%的最新结果,在OSWorld-G上取得了60.6%,在WebArena-Lite-v2上取得了47.4%。这些发现强调了数据驱动的扩展对于通用计算机使用代理的力量。我们将发布数据、模型和代码以推动未来的研究:https://github.com/OpenGVLab/ScaleCUA
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

视觉语言模型(VLM)赋能了可以自主操作图形用户界面(GUI)的计算机使用代理(CUA),展现出巨大的潜力,但由于缺乏大规模、开源的计算机使用数据和基础模型,进展受到限制。在本工作中,我们提出了 ScaleCUA,这是迈向大规模开源 CUA 的一步。它提供了一个跨越 6 个操作系统和 3 个任务领域的大规模数据集,该数据集通过一个结合了自动化代理和人类专家的闭环管道构建而成。在经过扩展的数据上训练后,ScaleCUA 可以在不同平台间无缝运行。具体而言,它在 WebArena-Lite-v2 上取得了比基线高出 26.6% 的增益,在 ScreenSpot-Pro 上高出 10.7%,并创下了新的最先进成果(MMBench-GUI L1-Hard 上为 94.4%,OSWorld-G 上为 60.6%,WebArena-Lite-v2 上为 47.4%)。这些发现强调了数据驱动的扩展对于通用计算机使用代理的力量。

Grant SingletonGrant Singleton

要更深入地了解,请查看此论文的 arXiv 页面:https://arxiv.org/abs/1905.11946