⏶20
SWE-bench上线了!
发表
由
Chaoyun Zhang 提交
作者:
Linghao Zhang, Shilin He,
Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang

摘要
问题解决任务,即模型生成补丁来修复真实世界的错误,已成为评估大型语言模型(LLMs)能力的关键基准。尽管SWE-bench及其变体已成为该领域的标准,但它们存在关键局限性:自首次发布以来未更新,涵盖的仓库范围狭窄,并且严重依赖人工进行实例构建和环境设置。这些因素阻碍了可扩展性,并引入了过拟合和数据污染的风险。在本文中,我们提出了SWE-bench-Live,一个旨在克服这些挑战的可实时更新的基准。我们的首次发布包含1,319个任务,源自2024年以来创建的真实GitHub问题,涵盖93个仓库。每个任务都附带专门的Docker镜像,以确保可复现执行。基准的核心是\method,一个自动化整理流程,简化了从实例创建到环境设置的整个过程,消除了人工瓶颈,实现了可扩展性和持续更新。我们在SWE-bench-Live上评估了一系列最先进的智能体框架和LLMs,即使在受控评估条件下,也揭示了与SWE-bench等静态基准相比显著的性能差距。为了更好地理解这种差异,我们对仓库来源、问题新近度和任务难度进行了详细分析。通过提供一个基于实时仓库活动的全新、多样化且可执行的基准,SWE-bench-Live促进了在动态真实世界软件开发环境中对LLMs和智能体进行严格的、抗污染的评估。
排行榜:https://swe-bench-live.github.io/ Huggingface:https://huggingface.co/SWE-bench-Live 代码:https://github.com/microsoft/SWE-bench-Live