⏶7
Ferret-UI Lite:构建小型设备端GUI智能体的经验
发表
由
taesiri 提交

作者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
摘要
AI 生成总结
Ferret-UI Lite 是一个紧凑的端到端 GUI 智能体,通过链式思维推理、视觉工具使用和强化学习,在各种平台中实现了具有竞争力的性能。开发有效与图形用户界面 (GUI) 交互的自主代理仍然是一个具有挑战性的开放性问题,尤其是对于小型设备端模型。在本文中,我们提出了 Ferret-UI Lite,一个紧凑、端到端的 GUI 代理,可在包括移动、网络和桌面在内的各种平台上运行。利用针对开发小型模型优化的技术,我们通过整合来自真实和合成来源的各种 GUI 数据混合、通过链式思维推理和视觉工具使用增强推理时性能,以及通过设计奖励进行强化学习来构建我们的 3B Ferret-UI Lite 代理。Ferret-UI Lite 在性能上与其他小型 GUI 代理具有竞争力。在 GUI 基础方面,Ferret-UI Lite 在 ScreenSpot-V2、ScreenSpot-Pro 和 OSWorld-G 基准上分别取得了 91.6%、53.3% 和 61.2% 的分数。在 GUI 导航方面,Ferret-UI Lite 在 AndroidWorld 上实现了 28.0% 的成功率,在 OSWorld 上实现了 19.8% 的成功率。我们分享了我们在开发紧凑型设备端 GUI 代理过程中的方法和经验教训。
开发能够有效与图形用户界面(GUI)交互的自主代理仍然是一个具有挑战性的开放性问题,特别是对于小型设备端模型而言。在本文中,我们提出了 Ferret-UI Lite,一个紧凑的、端到端的 GUI 代理,可在包括移动、Web 和桌面在内的各种平台上运行。利用针对开发小型模型优化的技术,我们通过策划来自真实和合成来源的多样化 GUI 数据混合、通过思维链推理和视觉工具使用来加强推理时性能,以及设计了奖励的强化学习来构建我们的 3B Ferret-UI Lite 代理。Ferret-UI Lite 在与其他小型 GUI 代理相比时取得了具有竞争力的性能。在 GUI 映射方面,Ferret-UI Lite 在 ScreenSpot-V2、ScreenSpot-Pro 和 OSWorld-G 基准测试上分别取得了 91.6%、53.3% 和 61.2% 的分数。对于 GUI 导航,Ferret-UI Lite 在 AndroidWorld 上取得了 28.0% 的成功率,在 OSWorld 上取得了 19.8% 的成功率。我们分享了我们开发紧凑型设备端 GUI 代理的方法和经验教训。