⏶7

OSUniverse：面向多模态GUI导航AI智能体的评测基准

05月06日发表

05月08日由 Mariya Davydova 提交

作者: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

摘要

在本文中，我们介绍 OSUniverse：一个复杂、多模态、面向桌面的任务基准，用于先进的GUI导航AI代理，其重点在于易用性、可扩展性、测试用例的全面覆盖以及自动化验证。我们将任务按复杂性递增的级别划分，从基本的精确点击到需要代理具备敏捷性、精确性和清晰思考能力的多步骤、多应用程序测试。在此展示的基准测试第一版中，我们校准了测试用例的复杂性，旨在确保 SOTA（当前最优水平）代理（在发布时）得分不超过 50%，而普通白领可以完美地完成所有这些任务。该基准可以手动评分，但我们也引入了一种平均错误率低于 2% 的自动化验证机制。因此，该基准为在短期和中期内全自动化衡量 GUI 导航 AI 代理的进展、能力和有效性提供了坚实的基础。该基准的源代码可在 https://github.com/agentsea/osuniverse 获取。

查看 arXiv 页面查看 PDF

Mariya Davydova

论文提交者

🚀 我们发布了一个我们不得不构建的基准测试：OSUniverse 🌌

OSUniverse：面向多模态GUI导航AI智能体的评测基准

摘要

评论