SEAgent: 具有自主学习经验的自进化计算机使用代理

发表
Zeyi SunZeyi Sun 提交
作者: Zeyi SunZeyi Sun, Ziyu Liu, Yuhang ZangYuhang Zang, Yuhang Cao, Xiaoyi DongXiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi WangJiaqi Wang

摘要

将大型视觉语言模型(LVLMs)重新用作计算机使用代理(CUAs)带来了重大突破,这主要得益于人工标注数据。然而,这些模型在处理新颖和专业软件时往往表现不佳,尤其是在缺乏人工标注的场景中。为了解决这个挑战,我们提出了 SEAgent,一个代理式的自进化框架,使 CUA 能够通过与不熟悉的软件交互自主进化。具体来说,SEAgent 赋予计算机使用代理自主掌握新软件环境的能力,通过经验学习,代理探索新软件,通过迭代试错学习,并逐步解决从简单到复杂自动生成的任务。为了实现这个目标,我们设计了一个世界状态模型用于逐步轨迹评估,以及一个课程生成器,生成日益多样化和具有挑战性的任务。代理的策略通过经验学习进行更新,包括对失败动作的对抗性模仿和对成功动作的组相对策略优化(GRPO)。此外,我们引入了一种从专家到通用者的训练策略,该策略整合了来自专家代理的个体经验洞察,促进了更强大的通用 CUA 的开发,该 CUA 能够持续自主进化。这个统一的代理最终在专业软件上实现了超越单个专家代理集合的性能。我们在 OS-World 的五个新颖软件环境中验证了 SEAgent 的有效性。与竞争性开源 CUA,即 UI-TARS 相比,我们的方法将成功率从 11.3% 提高到 34.5%,显著提升了 23.2%。
查看 arXiv 页面查看 PDF

评论

Zeyi SunZeyi Sun
论文作者
论文提交者

🔥 Github仓库 https://github.com/SunzeY/SEAgent