GUI-Reflection:赋能多模态GUI模型以自反思能力

发表
Penghao WuPenghao Wu 提交
作者: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu

摘要

多模态大型语言模型(MLLM)在革新图形用户界面(GUI)自动化方面展现出巨大潜力。然而,现有的GUI模型大多依赖于从几乎无错误的离线轨迹中学习,因此缺乏反思和错误恢复能力。为了弥补这一差距,我们提出了GUI-Reflection,这是一个新颖的框架,通过专门的训练阶段(GUI特定预训练、离线监督微调(SFT)和在线反思微调)将自我反思和错误纠正能力明确地整合到端到端的多模态GUI模型中。GUI-reflection通过全自动的数据生成和学习过程,无需任何人工标注,即可实现自我反思行为的涌现。具体而言,1)我们首先提出了可扩展的数据管道,以从现有的成功轨迹中自动构建反思和错误纠正数据。现有GUI模型主要侧重于基准和UI理解能力,而我们提出了GUI-Reflection任务套件,以明确学习和评估面向反思的能力。2)此外,我们构建了一个多样化且高效的环境,用于在移动设备上进行GUI模型的在线训练和数据收集。3)我们还提出了一种利用所提环境的迭代式在线反思微调算法,使模型能够持续提升其反思和错误纠正能力。我们的框架为GUI智能体赋予了自我反思和纠正能力,为更鲁棒、适应性更强和更智能的GUI自动化铺平了道路,所有数据、模型、环境和工具都将公开发布。
查看 arXiv 页面查看 PDF

评论