AgentSynth: 通用型计算机操作智能体的可扩展任务生成

发表
Xuandong ZhaoXuandong Zhao 提交
作者: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song

摘要

我们介绍了 AgentSynth,这是一个可扩展、高成本效益的流水线,用于自动合成面向通用型计算机使用代理的高质量任务和轨迹数据集。AgentSynth 利用信息不对称性,构建了在生成时简单但组合成长周期任务时则显著更具挑战性的子任务,从而能够创建超过 6,000 个多样化且真实的任务。我们的流水线始于一个由角色引导的基于 LLM 的任务提议器,随后是一个执行代理,它完成任务并记录轨迹。此过程迭代重复以形成一系列子任务,然后由一个独立的代理将这些子任务汇总成一个难度可控的复合任务。AgentSynth 的一个关键优势在于它能够通过改变子任务的数量来精确调节任务复杂度。经验评估表明,最先进的 LLM 代理性能急剧下降,从难度级别 1 的 18% 成功率降至级别 6 的仅 4%,这突显了该基准测试的难度和鉴别能力。此外,我们的流水线实现了每条轨迹平均 0.60 美元的低成本,比人工标注便宜几个数量级。我们的代码和数据在 https://github.com/sunblaze-ucb/AgentSynth 公开可用
查看 arXiv 页面查看 PDF

评论

Kexun ZhangKexun Zhang

很酷的论文