⏶29
OpenCUA: 计算机使用代理的开放基础
发表
由
Lu Dunjie 提交

作者:
Xinyuan Wang, Bowen Wang, Dunjie Lu,
Junlin Yang,
Tianbao Xie,
Junli Wang,
Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu




摘要
视觉语言模型已展现出作为计算机使用代理 (CUA) 的强大能力,能够自动化各种计算机任务。随着它们的商业潜力增长,最强大的 CUA 系统的关键细节仍然不公开。由于这些代理将越来越多地作为数字交互的媒介,并代表我们执行重要的决策,研究社区需要访问开放的 CUA 框架来研究它们的能力、局限性和风险。为了弥合这一差距,我们提出了 OpenCUA,一个用于扩展 CUA 数据和基础模型的综合开源框架。我们的框架包括:(1) 一个无缝捕获人类计算机使用演示的标注基础设施;(2) AgentNet,第一个涵盖 3 个操作系统和 200 多个应用程序和网站的大规模计算机使用任务数据集;(3) 一个可扩展的管道,将演示转换为状态-动作对,并带有反射性长思维链推理,这些推理在数据扩展时能保持鲁棒的性能提升。我们的端到端代理模型在 CUA 基准测试中表现出强大的性能。特别是,OpenCUA-32B 在 OSWorld-Verified 上实现了 34.8% 的平均成功率,在开源模型中建立了新的最先进水平 (SOTA),并超越了 OpenAI CUA (GPT-4o)。进一步的分析证实,我们的方法在不同领域通用性良好,并且从增加的测试时计算中显著受益。我们发布了我们的标注工具、数据集、代码和模型,为进一步的 CUA 研究构建开放的基础。
这是开源计算机使用代理研究的一个里程碑。