Mirage-1: 通过分层多模态技能增强和更新图形界面智能体

发表
Zaijing LiZaijing Li 提交
作者: Yuquan Xie, Zaijing LiZaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie

摘要

最近利用多模态大型语言模型 (MLLM) 作为 GUI 智能体的努力已取得了可喜的成果。然而,这些智能体在在线环境中处理长周期任务时仍然面临挑战,这主要是由于知识不足以及离线和在线领域之间固有的差距。在本文中,受人类在开放式环境中泛化知识的方式启发,我们提出了一种分层多模态技能 (HMS) 模块来解决知识不足的问题。它逐步将轨迹抽象为执行技能、核心技能,并最终抽象为元技能,为长周期任务规划提供分层知识结构。为了弥合领域差距,我们提出了一种技能增强蒙特卡洛树搜索 (SA-MCTS) 算法,该算法有效利用在离线环境中获得的技能,以减少在线树探索期间的动作搜索空间。基于 HMS,我们提出了 Mirage-1,一个多模态、跨平台、即插即用的 GUI 智能体。为了验证 Mirage-1 在真实世界长周期场景中的性能,我们构建了一个新的基准 AndroidLH。实验结果表明,Mirage-1 在 AndroidWorld、MobileMiniWob++、Mind2Web-Live 和 AndroidLH 上分别比现有智能体高出 32\%、19\%、15\% 和 79\%。项目页面:https://cybertronagent.github.io/Mirage-1.github.io/
查看 arXiv 页面查看 PDF

评论

Zaijing LiZaijing Li
论文作者
论文提交者

在在线环境中性能良好的免训练 GUI 代理。项目主页:https://cybertronagent.github.io/Mirage-1.github.io/