VeriGUI: 可验证长链GUI数据集

发表
Shunyu LiuShunyu Liu 提交
作者: Shunyu LiuShunyu Liu, minghaoMinghao Liu, Huichi Zhou, Zhenyu Cui, YANG ZHOUYang Zhou, Yuhao Zhou, Wendong Fan, Ge ZhangGe Zhang, Jiajun Shi, Weihao XUANWeihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, wangjunjieJunjie Wang, Aosong Feng, Zhou HengHeng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

摘要

最近的研究深入探讨了构建能够执行复杂图形用户界面(GUI)计算机任务的自主智能体,这有望彻底改变人机交互。尽管取得了令人鼓舞的成果,但现有工作主要集中在短期交互,并依赖于结果验证,从而限制了它们在需要长期任务分解和执行的真实世界 GUI 应用中的可扩展性。在这项工作中,我们引入了 VeriGUI,这是一个新颖的可验证长链 GUI 数据集,旨在促进在真实计算机环境中运行的通用 GUI 智能体的开发和评估。我们的数据集强调两个关键维度:(1)长链复杂性,任务被分解为一系列相互依赖的子任务,跨越数百个步骤,明确设计为允许任何子任务作为有效的起点;(2)子任务级别可验证性,它允许在每个子任务中进行多样化的探索策略,同时确保每个子任务级别目标保持可验证和一致。该数据集包含桌面和网络上的 GUI 任务轨迹,由人类专家进行注释。使用具有不同基础模型的各种智能体在 VeriGUI 上进行的大量实验揭示了处理长期任务时存在的显著性能差距,凸显了 GUI 智能体对更强大的规划和决策能力的需求。
查看 arXiv 页面查看 PDF

评论

Shunyu LiuShunyu Liu
论文作者
论文提交者

VeriGUI是一个新颖的数据集,用于评估GUI代理在长时任务中的表现,强调长链复杂性和子任务级别的可验证性。

minghaominghao
论文作者

我们更多的研究将在不久的将来发表。我们鼓励大家关注我们即将发布的工作,并真诚希望我们的贡献能造福更广泛的社区。

https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

Sicong JiangSicong Jiang

VeriGUI是第一个可验证的长链GUI数据集,适用于通用代理。它无疑将把通用代理的边界推向新的高度。很高兴能成为2077 AI的一员,共同探索代理数据的新未来!