用于计算机操作的高效 Agent 训练

发表
Jiahe JinJiahe Jin 提交
作者: Yanheng HeYanheng He, Jiahe JinJiahe Jin, Pengfei Liu

摘要

扩展高质量轨迹数据长期以来一直是开发类人计算机使用代理的关键瓶颈。我们引入了 PC Agent-E,这是一个高效的代理训练框架,显著减少了对大规模人类演示的依赖。仅从 312 条人类标注的计算机使用轨迹开始,我们通过使用 Claude 3.7 Sonnet 合成多样化的动作决策进一步提高了数据质量。在这些丰富的轨迹上进行训练后,我们的 PC Agent-E 模型取得了显著的 141% 相对改进,在 WindowsAgentArena-V2(我们发布的改进基准)上超越了具有扩展思维的强大模型 Claude 3.7 Sonnet。此外,PC Agent-E 在 OSWorld 上对不同操作系统显示出强大的泛化能力。我们的发现表明,可以从少量高质量轨迹数据中激发强大的计算机使用能力。
查看 arXiv 页面查看 PDF

评论