SWE-rebench:软件工程智能体任务收集与去污评估的自动化管线

发表
AlexanderAlexander 提交
作者: IbragimIbragim Badertdinov, AlexanderAlexander Golubev, Maksim Nekrashevich, AntonAnton Shevtsov, Simon KarasikSimon Karasik, Andrei AndriushchenkoAndrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris YangelBoris Yangel

摘要

基于LLM的智能体在越来越多的软件工程(SWE)任务中展现出有前景的能力。然而,推进该领域面临两个关键挑战。首先,高质量训练数据稀缺,特别是那些反映真实世界SWE场景的数据,在这些场景中智能体必须与开发环境交互、执行代码并根据其行动结果调整行为。现有数据集要么仅限于一次性代码生成,要么包含小规模、手动整理的交互式任务集合,缺乏规模和多样性。其次,缺乏新鲜的交互式SWE任务影响对快速改进模型的评估,因为静态基准测试由于数据污染问题很快就会过时。为了解决这些限制,我们引入了一种新颖、自动化、可扩展的流水线,用于持续提取来自多样化GitHub仓库的真实世界交互式SWE任务。利用该流水线,我们构建了SWE-rebench,一个公开数据集,包含超过21,000个基于Python的交互式SWE任务,适合于大规模地对SWE智能体进行强化学习。此外,我们利用使用SWE-rebench方法收集的新鲜任务的持续供应,构建了一个用于智能体软件工程的无污染基准测试。我们比较了各种LLM在该基准测试上的结果与在SWE-bench Verified上的结果,并表明一些语言模型的性能可能由于数据污染问题而被夸大了。
查看 arXiv 页面查看 PDF

评论

AlexanderAlexander
论文作者
论文提交者

Dataset: https://huggingface.co/datasets/nebius/SWE-rebench

SWE-rebench 主页: https://swe-rebench.com