GUI-Actor: 针对GUI智能体的无坐标视觉定位

发表
Chaoyun ZhangChaoyun Zhang 提交
作者: Qianhui WUQianhui Wu, Kanzhi ChengKanzhi Cheng, Rui YangRui Yang, Chaoyun ZhangChaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

摘要

构建基于VLM(视觉语言模型)的GUI代理的主要挑战之一是视觉接地,即根据视觉内容和文本计划定位用于执行操作的适当屏幕区域。大多数现有工作将其表述为基于文本的坐标生成任务。然而,这些方法存在一些局限性:弱空间语义对齐、无法处理模糊的监督目标,以及屏幕坐标的密集性与Vision Transformers等模型提取的视觉特征的粗粒度(块级别)之间的不匹配。在本文中,我们提出了GUI-Actor,这是一种基于VLM的无坐标GUI接地方法。其核心在于,GUI-Actor引入了一个基于注意力的动作头,该动作头学习将一个专用的<ACTOR> token与所有相关的视觉块token对齐,从而使模型能够在一次前向传播中提出一个或多个动作区域。与此相符的是,我们进一步设计了一个接地验证器,用于评估并从为动作执行提出的候选区域中选择最合理的动作区域。大量实验表明,GUI-Actor在多个GUI动作接地基准上优于现有最先进方法,并且对未见过的屏幕分辨率和布局具有更好的泛化能力。值得注意的是,GUI-Actor-7B在ScreenSpot-Pro上甚至超越了UI-TARS-72B(38.1),在使用Qwen2-VL作为骨干网络时达到40.7分,使用Qwen2.5-VL时达到44.6分。此外,通过整合验证器,我们发现仅对新引入的动作头(7B模型约1亿参数)进行微调,同时保持VLM骨干网络冻结,就足以达到与现有最先进模型相当的性能,这突出表明GUI-Actor可以在不损害其通用能力的前提下,赋予底层VLM有效的接地能力。
查看 arXiv 页面查看 PDF

评论

Chaoyun ZhangChaoyun Zhang
论文作者
论文提交者

项目页面:https://microsoft.github.io/GUI-Actor/

模型:https://huggingface.co/microsoft/GUI-Actor-7B-Qwen2-VL

Qianhui WUQianhui WU
论文作者

image.png