⏶9
OS Agents:通用计算设备MLLM代理综述
发表
由
huxueyu 提交
作者: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu
摘要
创建像钢铁侠中虚构的J.A.R.V.I.S一样强大和多功能的AI助手的梦想长期以来一直吸引着人们的想象。随着(多模态)大型语言模型((M)LLM)的演进,这个梦想离现实更近了,因为基于(M)LLM的Agent通过在操作系统(OS)提供的环境和接口(如图形用户界面(GUI))中操作来自动化任务,从而显著进步。本文对这些先进的Agent进行了全面调查,将其称为OS Agent。我们首先阐明OS Agent的基本原理,探讨其关键组成部分,包括环境、观察空间和行动空间,并概述了理解、规划和基础化等基本能力。然后,我们考察了构建OS Agent的方法论,重点关注领域特定基础模型和Agent框架。对评估协议和基准的详细审查突出了OS Agent如何在不同任务中进行评估。最后,我们讨论了当前的挑战,并指明了未来研究的有前途方向,包括安全和隐私、个性化和自我演进。本调查旨在整合OS Agent研究的现状,为学术探索和工业发展提供指导性见解。我们维护了一个开源的GitHub存储库作为动态资源,以促进该领域的进一步创新。我们展示了我们工作的一个9页版本,已被ACL 2025接受,旨在提供该领域的一个简明概述。
创建像《钢铁侠》中的虚构人工智能助手J.A.R.V.I.S一样强大且多功能的梦想,长期以来一直吸引着人们的想象。随着(多模态)大型语言模型((M)LLM)的发展,这个梦想正变得越来越接近现实,因为基于(M)LLM的智能体通过在操作系统(OS)提供的环境和接口(例如图形用户界面(GUI))中操作计算设备(例如计算机和手机)来自动化任务,已经取得了显著进步。本文对这些先进的智能体进行了全面调查,将其命名为操作系统智能体(OS Agents)。我们首先阐述了操作系统智能体的基本原理,探讨了其关键组成部分,包括环境、观察空间和动作空间,并概述了理解、规划和基础等基本能力。然后,我们审视了构建操作系统智能体的方法,重点关注特定领域的预训练模型和智能体框架。对评估协议和基准的详细审查突出了如何评估操作系统智能体在不同任务中的表现。最后,我们讨论了当前的挑战,并指出了未来研究的有前景方向,包括安全和隐私、个性化和自我进化。本次调查旨在整合操作系统智能体研究的现状,为学术探索和工业发展提供指导性见解。我们维护了一个开源的GitHub存储库,作为一个动态资源,以促进该领域的进一步创新。我们展示了已被ACL 2025接受的9页版本工作,以提供该领域的简明概述。