手机自动化中的LLM驱动GUI智能体:进展与前景综述

发表
Guangyi LiuGuangyi Liu 提交
作者: Guangyi LiuGuangyi Liu, pengxiang zhaoPengxiang Zhao, Liang LiuLiang Liu, guoyaxuanYaxuan Guo, Han Xiao, Weifeng LinWeifeng Lin, Yuxiang ChaiYuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng LIHongsheng Li

摘要

随着大型语言模型(LLMs)的迅速崛起,手机自动化经历了变革性的变化。本文系统地回顾了LLM驱动的手机GUI代理,重点介绍了它们从基于脚本的自动化到智能、自适应系统的演变。我们首先阐述了关键挑战,包括(i)泛化能力有限,(ii)维护成本高,以及(iii)意图理解薄弱,并展示了LLMs如何通过先进的语言理解、多模态感知和强大的决策能力来解决这些问题。然后,我们提出了一个分类体系,涵盖基本代理框架(单代理、多代理、规划后行动)、建模方法(提示工程、基于训练)以及必要的数据集和基准。此外,我们详细介绍了任务特定的架构、监督微调和强化学习策略,这些策略弥合了用户意图和GUI操作之间的差距。最后,我们讨论了开放性挑战,例如数据集多样性、设备端部署效率、以用户为中心的适应以及安全问题,并为这个快速发展的领域提供了前瞻性见解。通过提供结构化的概述和识别紧迫的研究空白,本文为寻求利用LLMs设计可扩展、用户友好的手机GUI代理的研究人员和实践者提供了权威参考。
查看 arXiv 页面查看 PDF

评论

Guangyi LiuGuangyi Liu
论文提交者

🔥 LLM 驱动的手机 GUI Agents 必读论文:github.com/PhoneLLM/Awesome-LLM-Powered-Phone-GUI-Agents

Guangyi LiuGuangyi Liu
论文提交者

🔖 概述

LLM 驱动的手机 GUI 代理在手机自动化中的全面分类法。请注意,此分类中仅包含部分代表性工作。

image.png

Guangyi LiuGuangyi Liu
论文提交者

🪧 里程碑

LLM 驱动的手机 GUI Agents 发展中的里程碑。此图将进展分为四个主要部分:提示工程 (Prompt Engineering)、基于训练的方法 (Training-Based Methods)、数据集 (Datasets) 和基准测试 (Benchmarks)。提示工程通过策略性地构建输入提示,利用预训练的 LLM 执行特定任务,而无需修改模型参数。相比之下,基于训练的方法通过在特定于 GUI 的数据上进行监督微调或强化学习来调整 LLM,从而增强其理解和与移动 UI 交互的能力。

image.png