⏶57
Mobile-Agent-v3: GUI 自动化的基础 Agent
发表
由
xuhaiyang 提交
作者:
Jiabo Ye, Xi Zhang,
Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao,
Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
摘要
本文介绍 GUI-Owl,一个基础 GUI Agent 模型,在桌面和移动环境的十个 GUI 基准测试中,在开源端到端模型中取得了最先进的性能,涵盖了 grounding、question answering、planning、decision-making 和 procedural knowledge。GUI-Owl-7B 在 AndroidWorld 上取得了 66.4 的成绩,在 OSWorld 上取得了 29.4 的成绩。在此基础上,我们提出了 Mobile-Agent-v3,一个通用 GUI Agent 框架,将 AndroidWorld 的性能进一步提高到 73.3,OSWorld 的性能提高到 37.7,为开源 GUI Agent 框架树立了新的最先进记录。GUI-Owl 包含三项关键创新:(1) 大规模环境基础设施:一个跨 Android、Ubuntu、macOS 和 Windows 的云端虚拟环境,支持我们的 Self-Evolving GUI Trajectory Production 框架。该框架通过自动查询生成和正确性验证,利用 GUI-Owl 迭代地优化轨迹,形成一个自我改进循环,从而生成高质量的交互数据。它支持多样化的数据管道,并减少了手动标注。(2) 多样化的基础 Agent 能力:通过集成 UI grounding、planning、action semantics 和 reasoning patterns,GUI-Owl 支持端到端的决策制定,并可以作为多 Agent 系统中的模块化组件。(3) 可扩展的环境 RL:我们开发了一个具有完全异步训练的可扩展强化学习框架,用于真实世界对齐。我们还为在线 RL 引入了 Trajectory-aware Relative Policy Optimization (TRPO),在 OSWorld 上取得了 34.9 的成绩。GUI-Owl 和 Mobile-Agent-v3 已在 https://github.com/X-PLUG/MobileAgent 开源。
评论
论文作者
这些模型已经开源;可以在以下网址访问:
https://huggingface.co/mPLUG/GUI-Owl-7B
https://huggingface.co/mPLUG/GUI-Owl-32B
您可以在 https://github.com/X-PLUG/MobileAgent 找到更多详细信息。
欢迎在 GitHub 上打开 Issues 和 PRs,并请考虑给仓库点赞,以帮助更多人发现 GUI-Owl 和 MobileAgent。
本文介绍了 GUI-Owl,一个基础 GUI Agent 模型,该模型在跨桌面和移动环境的十个 GUI 基准测试中,在开源端到端模型中达到了最先进的性能,涵盖了 grounding(定位)、question answering(问答)、planning(规划)、decision-making(决策)和 procedural knowledge(程序化知识)。GUI-Owl-7B 在 AndroidWorld 上取得了 66.4 的成绩,在 OSWorld 上取得了 29.4 的成绩。在此基础上,我们提出了 Mobile-Agent-v3,一个通用 GUI Agent 框架,进一步将 AndroidWorld 上的性能提升至 73.3,OSWorld 上的性能提升至 37.7,为开源 GUI Agent 框架树立了新的最先进水平。GUI-Owl 包含三项关键创新:(1)大规模环境基础设施:一个基于云的虚拟环境,涵盖 Android、Ubuntu、macOS 和 Windows,支持我们的 Self-Evolving GUI Trajectory Production 框架。该框架通过自动查询生成和正确性验证来生成高质量的交互数据,利用 GUI-Owl 迭代地优化轨迹,形成一个自我改进的循环。它支持多样化的数据管道,并减少了手动标注。(2)多样化的基础 Agent 能力:通过整合 UI grounding、规划、动作语义和推理模式,GUI-Owl 支持端到端的决策,并可以作为多 Agent 系统中的模块化组件。(3)可扩展的环境强化学习:我们开发了一个可扩展的强化学习框架,该框架具有完全异步的训练,以实现与现实世界的对齐。我们还引入了 Trajectory-aware Relative Policy Optimization (TRPO) 进行在线强化学习,在 OSWorld 上取得了 34.9 的成绩。GUI-Owl 和 Mobile-Agent-v3 已开源,网址为 https://github.com/X-PLUG/MobileAgent