TaskCraft:自动生成代理任务

发表
ZhouZhou 提交
作者: Dingfeng Shi, Jingyi Cao, Qianben Chen, Weichen Sun, Weizhen Li, Hongxuan Lu, Fangchen Dong, tianruiTianrui Qin, King Zhu, Minghao Yang, Jian Yang, Ge ZhangGe Zhang, Jiaheng Liu, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, ZhouWangchunshu Zhou

摘要

需要自主性、工具使用和自适应推理的多步骤问题解决的智能体任务正变得越来越是 NLP 和 AI 进步的核心。 然而,现有的指令数据缺乏工具交互,并且当前的智能体基准依赖于昂贵的人工注释,限制了它们的可扩展性。 我们引入了 TaskCraft,这是一个自动化工作流程,用于生成难度可扩展、多工具且可验证的智能体任务以及执行轨迹。 TaskCraft 使用基于深度和基于宽度的扩展来扩展原子任务,以创建结构和层次上复杂的挑战。 经验结果表明,这些任务改进了生成工作流程中的提示优化,并增强了智能体基础模型的监督微调。 我们提出了一个大约 36,000 个具有不同难度任务的大规模合成数据集,以支持未来对智能体调整和评估的研究。
查看 arXiv 页面查看 PDF

评论

Dingfeng ShiDingfeng Shi

自动化 Agentic 任务生成!

现有的指令数据集缺乏关于工具使用和环境交互的基本信息,而 GAIA 和 BrowserComp 等资源则严重依赖于手动标注,并且规模仍然有限。

推出 TaskCraft:一种自动化的工作流程,用于生成具有可验证执行轨迹的多工具、难度可扩展的 agentic 任务。 从简单、易于验证的原子任务开始,我们使用基于深度和宽度的扩展逐步提高复杂性,从而创建结构化的、具有分层挑战的问题。 我们的增量验证策略确保了效率和可靠性,同时也能够生成超出生成代理能力的任务。

通过我们生成的数据集,代理通过 Prompt Learning 获得显着的性能提升,而 Agent Foundation Models 则受益于 SFT。

我们构建了一个包含 36,000 个 agentic 任务的大规模数据集,为 AI 代理的系统调整和评估提供了坚实的基础。

论文:https://arxiv.org/abs/2506.10055

代码 & 数据:https://github.com/OPPO-PersonalAI/TaskCraft

ZhouZhou
论文作者
论文提交者

这是首次尝试自动合成 agentic 任务,用于代理学习和评估。