⏶41
Phi-Ground 技术报告:推进 GUI 接地中的感知技术
发表
由
Miaosen Zhang 提交
作者:
Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, Qi Dai, Kai Qiu,
Yifan Yang, Chong Luo,
Tianyi Chen, Justin Wagle, Tim Franklin, Baining Guo
摘要
随着多模态推理模型的发展,类似于《钢铁侠》中“贾维斯”(Jarvis) 的计算机使用智能体 (CUA) 正在成为现实。GUI 基础定位是 CUA 执行实际操作的核心组件,类似于机器人技术中的机械控制,并直接决定系统的成败。它决定了点击和键入等操作,以及点击坐标等相关参数。目前的端到端基础定位模型在 ScreenSpot-pro 和 UI-Vision 等具有挑战性的基准测试上准确率仍低于 65%,表明它们远未达到可部署的水平。在这项工作中,我们对基础定位模型的训练进行了实证研究,考察了从数据收集到模型训练的各个细节。最终,我们开发了 Phi-Ground 模型系列,在智能体设置下,该系列模型在所有五个基础定位基准测试中,对于参数量低于 100 亿的模型均取得了当前最佳性能 (SOTA)。在端到端模型设置中,我们的模型同样取得了 SOTA 成果,在 ScreenSpot-pro 上得分为 <b>43.2</b>,在 UI-Vision 上得分为 <b>27.2</b>。我们相信,本文中讨论的各种细节以及我们的成功与失败经验,不仅阐明了基础定位模型的构建过程,也对其他感知任务有所裨益。项目主页:https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}

一份关于如何训练 GUI 接地模型的非常详细的技术报告。Phi-Ground 模型系列在小于 100 亿参数的模型中取得了 SOTA(最先进)结果。