InfiGUI-R1:将多模态 GUI 代理从反应式执行者提升到审慎推理器

发表
Pengxiang LiPengxiang Li 提交
作者: Yuhang Liu, Pengxiang LiPengxiang Li, unkCongkai Xie, Xavier Hu, Xiaotian HanXiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

摘要

多模态大型语言模型 (MLLM) 为图形用户界面 (GUI) 代理提供了动力,在自动化计算设备上的任务方面显示出前景。最近的工作已经开始探索 GUI 任务中的推理,并取得了令人鼓舞的结果。然而,许多当前的方法依赖于手动设计的推理模板,这可能导致推理对于复杂的 GUI 环境来说不够稳健和自适应。与此同时,一些现有的代理继续作为反应式执行器运行,主要依赖于可能缺乏足够深度的隐式推理来完成需要规划和错误恢复的 GUI 任务。我们认为,推进这些代理需要从反应式执行转向基于审议推理的执行。为了促进这种转变,我们介绍了 InfiGUI-R1,这是一种基于 MLLM 的 GUI 代理,通过我们的 Actor2Reasoner 框架开发,这是一种以推理为中心的二阶段训练方法,旨在将代理从反应式执行器逐步发展为审议推理器。第一阶段,推理注入,侧重于建立基本推理器。我们采用空间推理蒸馏,通过具有显式推理步骤的轨迹将跨模态空间推理能力从教师模型转移到 MLLM,使模型能够在动作生成之前将 GUI 视觉空间信息与逻辑推理相结合。第二阶段,审议增强,使用强化学习将基本推理器改进为审议推理器。此阶段引入了两种方法:子目标引导,奖励模型生成准确的中间子目标;以及错误恢复场景构建,从已识别的易出错步骤创建失败和恢复训练场景。实验结果表明,InfiGUI-R1 在 GUI 接地和轨迹任务中取得了出色的性能。资源位于 https://github.com/Reallm-Labs/InfiGUI-R1
查看 arXiv 页面查看 PDF

评论

Pengxiang LiPengxiang Li
论文作者
论文提交者

我们介绍了 Actor2Reasoner 框架,使用空间推理蒸馏和有针对性的强化学习,将反应式 GUI 代理转变为强大的审慎推理器,例如我们的 InfiGUI-R1 模型,该模型在复杂的任务和 grounding 方面取得了出色的性能。