⏶8
Mano 报告
发表
由
taesiri 提交

作者: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
摘要
AI 生成总结
Mano,一个健壮的 GUI 代理,将强化学习与视觉语言模型相结合,用于高保真数据生成和改进 GUI 基准测试性能。图形用户界面(GUIs)是人机交互的主要媒介,但由于视觉元素的复杂性、动态环境以及多步推理的需要,自动化 GUI 交互仍然具有挑战性。基于视觉语言模型(VLMs)的现有方法通常受限于分辨率、领域不匹配和序列决策能力不足。为了解决这些问题,我们提出了 Mano,一个强大的 GUI 代理,它建立在经过广泛的 Web 和计算机系统数据预训练的多模态基础模型之上。我们的方法整合了一个用于高保真数据生成的新型模拟环境、一个三阶段训练管道(监督微调、离线强化学习和在线强化学习)以及一个用于错误恢复的验证模块。Mano 在多个 GUI 基准测试(包括 Mind2Web 和 OSWorld)上展现了最先进的性能,在成功率和操作准确性方面取得了显著的改进。我们的工作为强化学习与 VLMs 的有效集成以实现实际的 GUI 代理部署提供了新的见解,突出了领域特定数据、迭代训练和整体奖励设计的重要性。
图形用户界面 (GUI) 是人机交互的主要媒介,但由于视觉元素的复杂性、动态环境以及多步推理的需要,自动化 GUI 交互仍然具有挑战性。现有的基于视觉语言模型 (VLM) 的方法通常存在分辨率有限、领域不匹配和顺序决策能力不足的问题。为了解决这些问题,我们提出了 Mano,一个基于在大量 Web 和计算机系统数据上预训练的多模态基础模型的鲁棒 GUI 代理。我们的方法集成了新颖的用于高保真数据生成的模拟环境、三阶段训练流水线(监督微调、离线强化学习和在线强化学习)以及用于错误恢复的验证模块。Mano 在多个 GUI 基准测试(包括 Mind2Web 和 OSWorld)上展现了最先进的性能,在成功率和操作准确性方面取得了显著改进。我们的工作为强化学习与 VLM 的有效集成以实现实际 GUI 代理部署提供了新的见解,突显了领域特定数据、迭代训练和整体奖励设计的重要性。