⏶51

SWE-Factory：用于问题解决训练数据和评估基准的自动化工厂

06月12日发表

06月13日由 Wei Tao 提交

作者: Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng

摘要

构建用于GitHub问题解决任务的大规模数据集对于训练和评估大型语言模型（LLMs）的软件工程能力至关重要。然而，创建此类基准的传统过程众所周知地具有挑战性且劳动密集，特别是在设置评估环境、评估测试结果和验证任务实例的阶段。在本文中，我们提出了SWE-Factory，一个旨在解决这些挑战的自动化管道。为了解决这些问题，我们的管道集成了三个核心自动化组件。首先，我们引入了SWE-Builder，一个自动化评估环境构建的多智能体系统，它采用四个专业智能体以协作迭代循环工作，并利用环境内存池来提高效率。其次，我们引入了一种标准化的、基于退出代码的评分方法，消除了手动编写自定义解析器的需要。最后，我们利用这些可靠的退出代码信号自动化了fail2pass验证过程。在四种编程语言的671个问题上的实验表明，我们的管道可以有效地构建有效的任务实例；例如，使用GPT-4.1-mini，我们的SWE-Builder以每个实例0.045美元的成本构建了269个有效实例，而使用Gemini-2.5-flash，它以每个实例0.024美元的最低成本实现了可比的性能。我们还证明，与手动检查相比，我们基于退出代码的评分实现了100%的准确性，并且我们的自动化fail2pass验证达到了0.92的精确度和1.00的召回率。我们希望我们的自动化管道能够加速大规模、高质量GitHub问题解决数据集的收集，以用于训练和评估。我们的代码和数据集已发布在https://github.com/DeepSoftwareAnalytics/swe-factory。

查看 arXiv 页面查看 PDF

Wei Tao

论文作者

论文提交者

🚀 一个用于GitHub问题解决数据收集的自动化管道，减少您的手动工作！

😌 生成可靠且可复现的基于Docker的评估环境

🤖 使用LLM驱动的多智能体系统（SWE-Builder）自动构建环境

🙌🏻 支持多种编程语言（我们已广泛评估了Python、Java、JS和TS。）

SWE-Factory：用于问题解决训练数据和评估基准的自动化工厂

摘要

评论