OSUniverse:面向多模态GUI导航AI智能体的评测基准

发表
Mariya DavydovaMariya Davydova 提交
作者: Mariya DavydovaMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

摘要

在本文中,我们介绍 OSUniverse:一个复杂、多模态、面向桌面的任务基准,用于先进的GUI导航AI代理,其重点在于易用性、可扩展性、测试用例的全面覆盖以及自动化验证。我们将任务按复杂性递增的级别划分,从基本的精确点击到需要代理具备敏捷性、精确性和清晰思考能力的多步骤、多应用程序测试。在此展示的基准测试第一版中,我们校准了测试用例的复杂性,旨在确保 SOTA(当前最优水平)代理(在发布时)得分不超过 50%,而普通白领可以完美地完成所有这些任务。该基准可以手动评分,但我们也引入了一种平均错误率低于 2% 的自动化验证机制。因此,该基准为在短期和中期内全自动化衡量 GUI 导航 AI 代理的进展、能力和有效性提供了坚实的基础。该基准的源代码可在 https://github.com/agentsea/osuniverse 获取。
查看 arXiv 页面查看 PDF
OSUniverse:面向多模态GUI导航AI智能体的评测基准
OSUniverse:面向多模态GUI导航AI智能体的评测基准

评论

Mariya DavydovaMariya Davydova
论文提交者

🚀 我们发布了一个我们不得不构建的基准测试:OSUniverse 🌌