UI-S1:通过半在线强化学习推进 GUI 自动化

发表
xuhaiyangxuhaiyang 提交
作者: Zhengxi LuZhengxi Lu, Jiabo YeJiabo Ye, Fei Tang, Yongliang ShenYongliang Shen, xuhaiyangHaiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang

摘要

AI 生成总结
半在线强化学习通过在离线轨迹上模拟在线强化学习,解决了离线和在线强化学习的局限性,在动态基准测试中取得了最先进的性能。
图形用户界面(GUI)代理通过强化学习在自动化复杂的UI交互方面取得了显著进展。然而,当前的方法面临一个根本性的困境:离线RL可以在预收集的轨迹上进行稳定训练,但由于缺乏轨迹级别的奖励信号,在多步任务执行方面存在困难;在线RL通过环境交互捕获这些信号,但会受到稀疏奖励和高昂部署成本的影响。为了解决这个问题,我们提出了半在线强化学习,这是一种在新颖的范式中,在离线轨迹上模拟在线RL。在每次rollout过程中,我们保留原始模型在多轮对话中的输出,其中Patch Module自适应地恢复rollout轨迹与专家轨迹之间的差异。为了捕获长期的训练信号,半在线RL将折现的未来回报引入奖励计算,并通过加权的步级和回合级优势优化策略。我们进一步引入了半在线性能(SOP),这是一个与真实在线性能更匹配的指标,作为实际评估的实用且有效的代理。实验表明,我们的半在线RL在四个动态基准上取得了7B模型中的SOTA性能,比基础模型有了显著提升(例如,在AndroidWorld上提升+12.0%,在AITW上提升+23.8%),表明在弥合离线训练效率与在线多轮推理之间的差距方面取得了显著进展。代码可在https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1获取。
查看 arXiv 页面查看 PDF
UI-S1:通过半在线强化学习推进 GUI 自动化
UI-S1:通过半在线强化学习推进 GUI 自动化
UI-S1:通过半在线强化学习推进 GUI 自动化

评论

xuhaiyangxuhaiyang
论文作者
论文提交者

图形用户界面 (GUI) 代理通过强化学习在自动化复杂的 UI 交互方面取得了显著进展。然而,当前的方法面临一个根本性的困境:离线 RL 可以在预先收集的轨迹上进行稳定训练,但由于缺乏轨迹级别的奖励信号,在多步任务执行方面存在困难;在线 RL 通过环境交互捕获这些信号,但受到稀疏奖励和高昂部署成本的影响。为了解决这个问题,我们提出了半在线强化学习,一种在离线轨迹上模拟在线 RL 的新范式。在每次滚动过程中,我们保留了多轮对话中的原始模型输出,其中一个 Patch Module 自适应地恢复了滚动轨迹与专家轨迹之间的差异。为了捕获长期训练信号,半在线 RL 将折叠的未来回报纳入奖励计算,并通过加权的步级别和回合级别优势来优化策略。我们进一步提出了半在线性能 (SOP),这是一个与真实在线性能更匹配的指标,可作为实际评估的实用且有效的代理。实验表明,我们的 UI-S1-7B 在四个动态基准上取得了 7B 模型中的 SOTA 性能,与基础模型相比有显著提升(例如,在 AndroidWorld 上提升 +12.0%,在 AITW 上提升 +23.8%),显示了在弥合离线训练效率与在线多轮推理之间差距方面取得了显著进展。代码可在 https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1 获取。

Yury PanikovYury Panikov

谢谢