MobiAgent:用于可定制移动代理的系统框架

发表
Erhu FengErhu Feng 提交
作者: Cheng ZhangCheng Zhang, Erhu FengErhu Feng, Xi Zhao, Yisheng Zhao, Wangbo Gong, Jiahui Sun, Dong Du, Zhichao Hua, Yubin Xia, Haibo Chen

摘要

随着视觉语言模型(VLMs)的快速发展,基于GUI的移动代理已成为智能移动系统的关键发展方向。然而,现有的代理模型在实际任务执行方面仍然面临重大挑战,尤其是在准确性和效率方面。为了解决这些局限性,我们提出了MobiAgent,一个全面的移动代理系统,包含三个核心组件:MobiMind系列代理模型、AgentRR加速框架和MobiFlow基准测试套件。此外,认识到当前移动代理的能力仍受限于高质量数据的可用性,我们开发了一个AI辅助的敏捷数据收集流水线,大大降低了手动注释的成本。与通用LLM和专门的GUI代理模型相比,MobiAgent在实际移动场景中取得了最先进的性能。
查看 arXiv 页面查看 PDF

评论

Erhu FengErhu Feng
论文作者
论文提交者

我们已全面开源我们的设备端智能代理系统:MobiAgent,7B 模型性能超越 GPT-5!我们开源的组件包括数据收集流水线工具、代理模型(MobiMind 7B/3B)、代理加速引擎(AgentRR)、代理应用以及设备端代理基准(MobiFlow)。在真实的移动场景(如购物、娱乐、社交网络、商务出行等)中,我们的系统超越了 GPT-5 和 Gemini-2.5-pro 等领先的通用大型模型,以及 UI-TARS-1.5 等最先进的开源 GUI 代理模型。此外,我们的整个训练和推理部署完全基于 Ascend 910B NPU。

欢迎大家下载我们的应用(目前支持中文应用):

https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk

并直接体验!