⏶45
通过用户界面分解与合成实现计算机使用基础化的规模扩展
发表
由
Tianbao Xie 提交

作者:
Tianbao Xie,
Jiaqi Deng,
Xiaochuan Li,
Junlin Yang,
Haoyuan Wu,
Jixuan Chen, Wenjing Hu,
Xinyuan Wang,
Yuhui Xu,
Zekun Wang,
Yiheng Xu, Junli Wang,
Doyen Sahoo, Tao Yu,
Caiming Xiong







摘要
图形用户界面(GUI)锚定(即将自然语言指令映射到图形用户界面上的特定操作的能力)仍然是计算机使用智能体开发中的关键瓶颈。当前的基准将锚定任务过度简化为简短的指称表达,未能捕捉到需要软件常识、布局理解和细粒度操作能力的现实世界交互的复杂性。为了解决这些局限性,我们引入了 OSWorld-G,这是一个综合性基准,包含 564 个经过精细标注的样本,涵盖文本匹配、元素识别、布局理解和精确操作等多种任务类型。此外,我们合成并发布了最大的计算机使用锚定数据集 Jedi,该数据集通过对任务进行多视角解耦,包含了 400 万个示例。我们在 Jedi 上训练的多尺度模型通过在 ScreenSpot-v2、ScreenSpot-Pro 和我们的 OSWorld-G 上超越现有方法,证明了其有效性。此外,我们证明使用 Jedi 改进的锚定能力直接增强了通用基础模型在复杂计算机任务上的智能体能力,在 OSWorld 上从 5% 提高到 27%。通过详细的消融研究,我们确定了影响锚定性能的关键因素,并验证了为不同界面元素结合专门数据可以实现对新颖界面的组合泛化。所有基准、数据、检查点和代码均已开源,可在 https://osworld-grounding.github.io 获取。
你知道吗,仅仅提高细粒度接地能力就能将 GPT-4o 在 OSWorld 上的性能从 5% 提升到 27%?OSWorld-G 和 Jedi 数据集的发布是否将是突破通用 AI 代理 GUI 接地瓶颈的关键?在大规模强化学习和自动化数据收集之前,这似乎是必要的一步。分享你对 GUI 接地未来的看法!