SWE-Factory:用于问题解决训练数据和评估基准的自动化工厂

发表
Wei TaoWei Tao 提交
作者: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei TaoWei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng

摘要

构建用于GitHub问题解决任务的大规模数据集对于训练和评估大型语言模型(LLMs)的软件工程能力至关重要。然而,创建此类基准的传统过程众所周知地具有挑战性且劳动密集,特别是在设置评估环境、评估测试结果和验证任务实例的阶段。在本文中,我们提出了SWE-Factory,一个旨在解决这些挑战的自动化管道。为了解决这些问题,我们的管道集成了三个核心自动化组件。首先,我们引入了SWE-Builder,一个自动化评估环境构建的多智能体系统,它采用四个专业智能体以协作迭代循环工作,并利用环境内存池来提高效率。其次,我们引入了一种标准化的、基于退出代码的评分方法,消除了手动编写自定义解析器的需要。最后,我们利用这些可靠的退出代码信号自动化了fail2pass验证过程。在四种编程语言的671个问题上的实验表明,我们的管道可以有效地构建有效的任务实例;例如,使用GPT-4.1-mini,我们的SWE-Builder以每个实例0.045美元的成本构建了269个有效实例,而使用Gemini-2.5-flash,它以每个实例0.024美元的最低成本实现了可比的性能。我们还证明,与手动检查相比,我们基于退出代码的评分实现了100%的准确性,并且我们的自动化fail2pass验证达到了0.92的精确度和1.00的召回率。我们希望我们的自动化管道能够加速大规模、高质量GitHub问题解决数据集的收集,以用于训练和评估。我们的代码和数据集已发布在https://github.com/DeepSoftwareAnalytics/swe-factory
查看 arXiv 页面查看 PDF

评论

Wei TaoWei Tao
论文作者
论文提交者

🚀 一个用于GitHub问题解决数据收集的自动化管道,减少您的手动工作!

😌 生成可靠且可复现的基于Docker的评估环境

🤖 使用LLM驱动的多智能体系统(SWE-Builder)自动构建环境

🙌🏻 支持多种编程语言(我们已广泛评估了Python、Java、JS和TS。)