⏶24
GTA1:GUI 测试时缩放代理
发表
由
Yan Yang 提交
作者: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang,
Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

摘要
图形用户界面 (GUI) 智能体能够自主跨平台(例如 Linux)运行,通过与视觉元素交互来完成任务。具体来说,用户指令被分解为一系列动作提议,每个提议对应与 GUI 的一次交互。在每次动作之后,智能体观察更新的 GUI 环境以规划下一步。然而,主要存在两个挑战:i) 解决任务规划中的歧义(即动作提议序列),选择一个合适的计划并非易事,因为可能存在许多有效的计划;ii) 在复杂和高分辨率界面中准确地落地动作,即精确地与视觉目标交互。本文通过我们的 GUI 测试时缩放智能体 GTA1 来研究上述两个挑战。首先,为了选择最合适的动作提议,我们引入了一种测试时缩放方法。在每一步,我们采样多个候选动作提议,并利用一个判断模型来评估并选择最合适的。它通过并发采样,缩短任务执行步骤,并提高整体性能来权衡计算以获得更好的决策质量。其次,我们提出了一种模型,它在将选定的动作提议落地到其对应的视觉元素时,实现了更高的准确性。我们的关键洞察是,强化学习 (RL) 通过固有的目标对齐来促进视觉落地,奖励成功点击界面元素。实验证明,我们的方法在各种基准测试中均达到了最先进的性能。例如,GTA1-7B 在 Screenspot-Pro、Screenspot-V2 和 OSWorld-G 上分别取得了 50.1%、92.4% 和 67.7% 的准确率。当与应用我们测试时缩放策略的规划器结合时,它展现了最先进的智能体性能(例如,OSWorld 上 45.2% 的任务成功率)。我们在此开源了我们的代码和模型。
代码: https://github.com/Yan98/GTA1