UItron:具有高级感知和规划能力的基石级 GUI 代理

发表
taesiritaesiri 提交
作者: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma

摘要

GUI 代理旨在实现移动/PC 设备上的自动化操作,这是实现人工智能通用性的一项重要任务。VLM 的快速发展加速了 GUI 代理的开发,因为它们在视觉理解和任务规划方面拥有强大的能力。然而,构建 GUI 代理仍然是一项挑战性任务,原因在于操作轨迹的稀缺性、交互式基础设施的可用性以及基础模型初始能力的局限性。在本工作中,我们推出了 UItron,一个开源的自动化 GUI 代理基础模型,具有先进的 GUI 感知、接地和规划能力。UItron 强调了系统化的数据工程和交互式基础设施作为推进 GUI 代理开发的基础组成部分的必要性。它不仅系统地研究了一系列数据工程策略以增强训练效果,还建立了一个连接移动和 PC 设备的交互环境。在训练中,UItron 在各种 GUI 场景下的感知和规划任务上采用监督式微调,然后开发了一个课程强化学习框架,以实现对在线环境的复杂推理和探索。因此,UItron 在 GUI 感知、接地和规划的基准测试中取得了卓越的性能。特别地,UItron 强调了与顶级中文移动 APP 的交互能力,因为我们发现即使在最先进的解决方案中也普遍缺乏中文能力。为此,我们手动收集了超过一百万步的操作轨迹,涵盖了排名前 100 的最流行 APP,并构建了离线和在线代理评估环境。实验结果表明,UItron 在中文 APP 场景中取得了显著进展,将 GUI 代理更进一步推向实际应用。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

UItron 提供了一个基础 GUI 代理,集成了高级感知、接地和规划与数据工程和交互式基础设施,在中国应用方面取得了强大的性能。