CoAct-1:编码为行动的计算机使用智能体

发表
Linxin SongLinxin Song 提交
作者: Linxin SongLinxin Song, Yutong Dai, Viraj Prabhu, Jieyu Zhang, Taiwei ShiTaiwei Shi, Li Li, Junnan Li, Silvio Savarese, Zeyuan Chen, Jieyu Zhao, Ran Xu, Caiming Xiong

摘要

通过图形用户界面(GUI)操作计算机的自主代理,在处理复杂、长期任务时,通常面临效率和可靠性方面的挑战。尽管用规划器增强这些代理可以改善任务分解,但它们仍然受限于通过GUI操作执行所有操作的固有局限性,导致脆弱性和低效率。在这项工作中,我们引入了一种更健壮和灵活的范式:使代理能够将编码作为一种增强行动。我们提出了CoAct-1,这是一个新颖的多智能体系统,它协同结合了基于GUI的控制和直接的程序化执行。CoAct-1设有一个协调器,可以动态地将子任务委派给传统的GUI操作员或专业的程序员代理,后者可以编写和执行Python或Bash脚本。这种混合方法允许代理跳过低效的GUI动作序列,处理文件管理和数据处理等任务,同时在必要时仍能利用视觉交互。我们在具有挑战性的OSWorld基准上评估了我们的系统,CoAct-1取得了60.76%的全新最先进成功率,显著优于现有方法。此外,我们的方法极大地提高了效率,将完成任务所需的平均步骤数减少到仅10.15步,而领先的GUI代理需要15步。我们的结果表明,将编码作为核心行动整合,为实现通用计算机自动化提供了一条更强大、高效和可扩展的路径。
查看 arXiv 页面查看 PDF

评论

YY

错别字:enabling agents to use coding as a enhanced action -> enabling agents to use coding as an enhanced action

Linxin SongLinxin Song
论文作者
论文提交者
  • OSWorld 新 SOTA,成功率 60.8%,每任务 11.1 步

  • 多智能体架构

  • 重新定义效率,代码编写(Python/Bash)+ GUI 操作