⏶14
CoAct-1:编码为行动的计算机使用智能体
发表
由
Linxin Song 提交
作者:
Linxin Song, Yutong Dai, Viraj Prabhu, Jieyu Zhang,
Taiwei Shi, Li Li, Junnan Li, Silvio Savarese, Zeyuan Chen, Jieyu Zhao, Ran Xu, Caiming Xiong

摘要
通过图形用户界面(GUI)操作计算机的自主代理,在处理复杂、长期任务时,通常面临效率和可靠性方面的挑战。尽管用规划器增强这些代理可以改善任务分解,但它们仍然受限于通过GUI操作执行所有操作的固有局限性,导致脆弱性和低效率。在这项工作中,我们引入了一种更健壮和灵活的范式:使代理能够将编码作为一种增强行动。我们提出了CoAct-1,这是一个新颖的多智能体系统,它协同结合了基于GUI的控制和直接的程序化执行。CoAct-1设有一个协调器,可以动态地将子任务委派给传统的GUI操作员或专业的程序员代理,后者可以编写和执行Python或Bash脚本。这种混合方法允许代理跳过低效的GUI动作序列,处理文件管理和数据处理等任务,同时在必要时仍能利用视觉交互。我们在具有挑战性的OSWorld基准上评估了我们的系统,CoAct-1取得了60.76%的全新最先进成功率,显著优于现有方法。此外,我们的方法极大地提高了效率,将完成任务所需的平均步骤数减少到仅10.15步,而领先的GUI代理需要15步。我们的结果表明,将编码作为核心行动整合,为实现通用计算机自动化提供了一条更强大、高效和可扩展的路径。
错别字:enabling agents to use coding as a enhanced action -> enabling agents to use coding as an enhanced action