⏶29
MMBench-GUI:分层多平台 GUI 智能体评估框架
发表
由
Xuehui Wang 提交
作者: Xuehui Wang, Zhenyu Wu,
JingJing Xie,
Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu,
Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie,
Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
摘要
我们推出 MMBench-GUI,这是一个用于评估跨 Windows、macOS、Linux、iOS、Android 和 Web 平台上的 GUI 自动化代理的分层基准。它包含四个级别:GUI 内容理解、元素定位、任务自动化和任务协作,涵盖了 GUI 代理所需的基本技能。此外,我们提出了一种新颖的效率-质量区域 (EQA) 指标,用于评估 GUI 代理在在线自动化场景中的执行效率。通过 MMBench-GUI,我们发现准确的视觉定位是整体任务成功的关键决定因素,这强调了整合专业定位模块的模块化框架的巨大优势。此外,为了实现可靠的 GUI 自动化,代理需要强大的任务规划和跨平台泛化能力,其中长上下文记忆、广阔的动作空间和长期推理发挥着关键作用。更重要的是,任务效率仍然是一个严重未被探索的维度,所有模型都存在严重的低效率问题,即使任务最终完成也包含过多的冗余步骤。集成精确的本地化、有效的规划和早期停止策略对于实现真正高效和可扩展的 GUI 自动化是不可或缺的。我们的基准代码、评估数据和运行环境将在 https://github.com/open-compass/MMBench-GUI 公开可用。
我们引入了 MMBench-GUI,这是一个分层基准,用于评估跨 Windows、macOS、Linux、iOS、Android 和 Web 平台的 GUI 自动化代理。它包含四个级别:GUI 内容理解、元素定位、任务自动化和任务协作,涵盖了 GUI 代理的关键技能。此外,我们提出了一种新颖的效率-质量区域 (EQA) 度量,用于评估 GUI 代理在在线自动化场景中的执行效率。通过 MMBench-GUI,我们发现准确的视觉定位是任务整体成功的关键决定因素,这突出了集成专用定位模块的模块化框架的巨大优势。此外,为了实现可靠的 GUI 自动化,代理需要强大的任务规划和跨平台泛化能力,其中长上下文记忆、宽广的动作空间和长期推理发挥着关键作用。更重要的是,任务效率仍然是一个严重未被充分探索的维度,所有模型都存在严重的低效率问题,即使任务最终完成,也存在过多的冗余步骤。精确的定位、有效的规划和早期停止策略的集成对于实现真正高效和可扩展的 GUI 自动化是不可或缺的。我们的基准代码、评估数据和运行环境将公开可用。