Phi-Ground 技术报告:推进 GUI 接地中的感知技术

发表
Miaosen ZhangMiaosen Zhang 提交
作者: Miaosen ZhangMiaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu, Yif YangYifan Yang, Chong Luo, Tianyi ChenTianyi Chen, Justin Wagle, Tim Franklin, Baining Guo

摘要

随着多模态推理模型的发展,类似于《钢铁侠》中“贾维斯”(Jarvis) 的计算机使用智能体 (CUA) 正在成为现实。GUI 基础定位是 CUA 执行实际操作的核心组件,类似于机器人技术中的机械控制,并直接决定系统的成败。它决定了点击和键入等操作,以及点击坐标等相关参数。目前的端到端基础定位模型在 ScreenSpot-pro 和 UI-Vision 等具有挑战性的基准测试上准确率仍低于 65%,表明它们远未达到可部署的水平。在这项工作中,我们对基础定位模型的训练进行了实证研究,考察了从数据收集到模型训练的各个细节。最终,我们开发了 Phi-Ground 模型系列,在智能体设置下,该系列模型在所有五个基础定位基准测试中,对于参数量低于 100 亿的模型均取得了当前最佳性能 (SOTA)。在端到端模型设置中,我们的模型同样取得了 SOTA 成果,在 ScreenSpot-pro 上得分为 <b>43.2</b>,在 UI-Vision 上得分为 <b>27.2</b>。我们相信,本文中讨论的各种细节以及我们的成功与失败经验,不仅阐明了基础定位模型的构建过程,也对其他感知任务有所裨益。项目主页:https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
查看 arXiv 页面查看 PDF
Phi-Ground 技术报告:推进 GUI 接地中的感知技术

评论

Miaosen ZhangMiaosen Zhang
论文作者
论文提交者

一份关于如何训练 GUI 接地模型的非常详细的技术报告。Phi-Ground 模型系列在小于 100 亿参数的模型中取得了 SOTA(最先进)结果。

Barry HarrisBarry Harris

最令我印象深刻的是,他们使用一个参数量少于100亿的模型,在真实的Windows应用交互中实现了95.2%的准确率。