UltraCUA:一种具有混合动作的计算机使用代理基础模型

发表
taesiritaesiri 提交
作者: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan

摘要

AI 生成总结
UltraCUA 将 GUI 操作与编程工具集成,以提高计算机使用代理的性能和效率。
用于计算机使用的多模态代理仅依赖于需要准确视觉基础和冗长执行链的原始操作(点击、输入、滚动),这会导致级联故障和性能瓶颈。虽然其他代理利用丰富的编程接口(API、MCP 服务器、工具),但用于计算机使用的代理(CUAs)仍与这些功能隔离。我们提出了 UltraCUA,一个基础模型,通过混合操作弥合了这一差距——无缝集成了 GUI 原始操作和高级编程工具调用。为了实现这一点,我们的方法包含四个关键组件:(1)一个自动化管道,用于从软件文档、开源存储库和代码生成中扩展编程工具;(2)一个合成数据引擎,生成超过 17,000 个可验证的任务,涵盖现实世界的计算机使用场景;(3)一个大规模高质量的混合操作轨迹集合,包含低级 GUI 操作和高级编程工具调用;以及(4)一个两阶段训练管道,结合了监督微调和在线强化学习,实现了低级和高级操作之间的战略交替。我们 7B 和 32B 模型进行的实验表明,与最先进的代理相比,性能有了显著提高。在 OSWorld 上,UltraCUA 模型平均比基础模型提高了 22%,同时在步数方面快了 11%。在 WindowsAgentArena 上的域外评估显示,我们的模型达到了 21.7% 的成功率,优于在 Windows 数据上训练的基线。混合操作机制被证明是关键,它在保持执行效率的同时减少了错误传播。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

用于计算机使用的多模态代理仅依赖于原始操作(单击、键入、滚动),这些操作需要精确的视觉接地和冗长的执行链,从而导致级联故障和性能瓶颈。虽然其他代理利用丰富的编程接口(API、MCP 服务器、工具),但计算机使用代理(CUA)仍然独立于这些功能。我们提出了 UltraCUA,一个通过混合操作弥合这一差距的基础模型——无缝集成了 GUI 原始操作和高级编程工具调用。为了实现这一点,我们的方法包括四个关键组件:(1)一个自动化管道,从软件文档、开源存储库和代码生成中扩展编程工具;(2)一个合成数据引擎,生成超过 17,000 个可验证的任务,涵盖现实世界的计算机使用场景;(3)一个大规模高质量的混合操作轨迹集合,包含低级 GUI 操作和高级编程工具调用;(4)一个两阶段训练管道,结合了监督微调和在线强化学习,实现了低级和高级操作之间的策略性交替。我们 7B 和 32B 模型进行的实验表明,与最先进的代理相比,性能有了显著的提高。在 OSWorld 上,UltraCUA 模型比基础模型平均提高了 22%,同时在步骤方面快了 11%。在 WindowsAgentArena 上的域外评估显示,我们的模型达到了 21.7% 的成功率,优于在 Windows 数据上训练的基线模型。混合操作机制被证明至关重要,它在保持执行效率的同时减少了错误传播。