三思而后行:一种用于 GUI 自动化操作前错误诊断的 GUI-Critic-R1 模型

发表
xuhaiyangxuhaiyang 提交
作者: Yuyang Wanyan, Xi Zhang, xuhaiyangHaiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu

摘要

近年来,多模态大型语言模型(MLLM)已被广泛用于多模态推理任务,包括图形用户界面(GUI)自动化。与一般的离线多模态任务不同,GUI自动化是在在线交互环境中执行的,需要根据环境的实时状态进行逐步决策。此任务对每一步的决策错误容忍度较低,因为任何错误都可能累积性地中断进程,并可能导致不可逆转的结果,如删除或支付。为了解决这些问题,我们引入了一种术前批评机制,通过对操作的潜在结果和正确性进行推理,在实际执行之前提供有效的反馈。具体来说,我们提出了一种建议感知梯度相对策略优化(S-GRPO)策略来构建我们的术前批评模型GUI-Critic-R1,其中结合了一种新颖的建议奖励来增强模型反馈的可靠性。此外,我们开发了一个基于推理自举的数据收集管道,以创建GUI-Critic-Train和GUI-Critic-Test,填补了GUI批评数据中的现有空白。在移动和网络领域对GUI-Critic-Test进行的静态实验表明,与当前的MLLM相比,我们的GUI-Critic-R1在批评准确性方面具有显著优势。在GUI自动化基准上进行的动态评估进一步突出了我们模型的有效性和优越性,成功率和操作效率均得到提高。
查看 arXiv 页面查看 PDF
三思而后行:一种用于 GUI 自动化操作前错误诊断的 GUI-Critic-R1 模型
三思而后行:一种用于 GUI 自动化操作前错误诊断的 GUI-Critic-R1 模型

评论

xuhaiyangxuhaiyang
论文作者
论文提交者

近年来,多模态大型语言模型(MLLMs)已被广泛应用于多模态推理任务,包括图形用户界面(GUI)自动化。与一般的离线多模态任务不同,GUI 自动化是在在线交互环境中执行的,需要根据环境的实时状态进行逐步决策。此任务对每一步的决策错误容忍度较低,因为任何错误都可能累积性地扰乱进程,并可能导致删除或支付等不可逆转的结果。为解决这些问题,我们引入了一种预执行审查(pre-operative critic)机制,通过对操作的潜在结果和正确性进行推理,在实际执行前提供有效反馈。具体来说,我们提出了一种“建议感知梯度相对策略优化”(S-GRPO)策略来构建我们的预执行审查模型 GUI-Critic-R1,该策略融合了一种新颖的建议奖励,以提高模型反馈的可靠性。此外,我们开发了一个基于推理自举的数据收集管道,以创建 GUI-Critic-Train 和 GUI-Critic-Test 数据集,填补了 GUI 审查数据方面的现有空白。在 GUI-Critic-Test 上进行的跨移动和网页领域的静态实验表明,与当前 MLLMs 相比,我们的 GUI-Critic-R1 在审查准确性方面具有显著优势。对 GUI 自动化基准的动态评估进一步突出了我们模型的有效性和优越性,成功率和操作效率均有所提高。