通过用户界面分解与合成实现计算机使用基础化的规模扩展

发表
Tianbao XieTianbao Xie 提交
作者: Tianbao XieTianbao Xie, Jiaqi DengJiaqi Deng, Xiaochuan LiXiaochuan Li, Nick YangJunlin Yang, Fred WuHaoyuan Wu, Jixuan ChenJixuan Chen, Wenjing Hu, Xinyuan WangXinyuan Wang, Yuhui XuYuhui Xu, Zekun WangZekun Wang, Yiheng XuYiheng Xu, Junli Wang, DoyenDoyen Sahoo, Tao Yu, Caiming XiongCaiming Xiong

摘要

图形用户界面(GUI)锚定(即将自然语言指令映射到图形用户界面上的特定操作的能力)仍然是计算机使用智能体开发中的关键瓶颈。当前的基准将锚定任务过度简化为简短的指称表达,未能捕捉到需要软件常识、布局理解和细粒度操作能力的现实世界交互的复杂性。为了解决这些局限性,我们引入了 OSWorld-G,这是一个综合性基准,包含 564 个经过精细标注的样本,涵盖文本匹配、元素识别、布局理解和精确操作等多种任务类型。此外,我们合成并发布了最大的计算机使用锚定数据集 Jedi,该数据集通过对任务进行多视角解耦,包含了 400 万个示例。我们在 Jedi 上训练的多尺度模型通过在 ScreenSpot-v2、ScreenSpot-Pro 和我们的 OSWorld-G 上超越现有方法,证明了其有效性。此外,我们证明使用 Jedi 改进的锚定能力直接增强了通用基础模型在复杂计算机任务上的智能体能力,在 OSWorld 上从 5% 提高到 27%。通过详细的消融研究,我们确定了影响锚定性能的关键因素,并验证了为不同界面元素结合专门数据可以实现对新颖界面的组合泛化。所有基准、数据、检查点和代码均已开源,可在 https://osworld-grounding.github.io 获取。
查看 arXiv 页面查看 PDF

评论

Tianbao XieTianbao Xie
论文作者
论文提交者

你知道吗,仅仅提高细粒度接地能力就能将 GPT-4o 在 OSWorld 上的性能从 5% 提升到 27%?OSWorld-G 和 Jedi 数据集的发布是否将是突破通用 AI 代理 GUI 接地瓶颈的关键?在大规模强化学习和自动化数据收集之前,这似乎是必要的一步。分享你对 GUI 接地未来的看法!

Tianbao XieTianbao Xie
论文作者
论文提交者

在这里尝试 Hugging Face Space 演示:https://huggingface.co/spaces/tianbaoxiexxx/Jedi