UFO2:桌面代理操作系统

发表
Chaoyun ZhangChaoyun Zhang 提交
作者: Chaoyun ZhangChaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin HeShilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao DuChao Du, Liqun LiLiqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, rujiawangRujia Wang, Jiaxu Qian, MingHua MaMinghua Ma, Jian-Guang LouJian-Guang Lou, Qingwei Lin, Saravan Rajmohan, ZHANGDONGMEIDongmei Zhang

摘要

近期,由多模态大型语言模型(LLM)驱动的计算机使用代理(CUA)为通过自然语言自动化复杂的桌面工作流程提供了一个有前景的方向。然而,大多数现有的 CUA 仍然是概念原型,受到浅层的操作系统集成、脆弱的基于截图的交互和破坏性的执行的阻碍。我们推出了 UFO2,这是一个用于 Windows 桌面的多代理 AgentOS,将 CUA 提升为实用的系统级自动化。UFO2 具有一个用于任务分解和协调的中央 HostAgent,以及一系列配备了原生 API、领域特定知识和统一的 GUI-API 操作层的应用程序专用 AppAgent。这种架构在保持模块化和可扩展性的同时,实现了稳健的任务执行。混合控制检测管道将 Windows UI 自动化(UIA)与基于视觉的解析融合,以支持多样化的界面风格。通过推测性的多动作规划,进一步提高了运行时效率,从而减少了每一步的 LLM 开销。最后,画中画(PiP)界面实现了在隔离的虚拟桌面内的自动化,允许代理和用户在互不干扰的情况下并发操作。我们在超过 20 个真实世界的 Windows 应用程序中评估了 UFO2,证明了相对于之前的 CUA,UFO2 在鲁棒性和执行精度方面有了显著的提高。我们的结果表明,深入的操作系统集成为实现可靠的、用户对齐的桌面自动化解锁了一条可扩展的路径。
查看 arXiv 页面查看 PDF

评论

Chaoyun ZhangChaoyun Zhang
论文作者
论文提交者

UFO2: 桌面智能体操作系统

Chaoyun ZhangChaoyun Zhang
论文作者
论文提交者

代码: https://github.com/microsoft/UFO

文档: https://microsoft.github.io/UFO/