GSO:评估SWE-Agents的挑战性软件优化任务

发表
Naman JainNaman Jain 提交
作者: Manish ShettyManish Shetty, Naman JainNaman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica

摘要

开发高性能软件是一项复杂的任务,需要专业的知识。我们引入了 GSO,这是一个用于评估语言模型在开发高性能软件方面的能力的基准。我们开发了一个自动化流程,用于生成和执行性能测试,分析代码仓库的提交历史,从而在涵盖不同领域和编程语言的 10 个代码库中识别出 102 个具有挑战性的优化任务。向一个智能体提供代码库和性能测试作为精确的规范,并要求其提高运行效率,其改进程度将与专家开发人员的优化进行对比。我们的定量评估显示,领先的 SWE-Agents 表现显著不佳,成功率不到 5%,即使通过推理时扩展,改进也有限。我们的定性分析确定了主要的失败模式,包括对低级语言的处理困难、采取懒惰的优化策略以及难以准确定位瓶颈。我们发布了基准的代码、相关资源以及智能体的运行轨迹,以促进未来的研究。
查看 arXiv 页面查看 PDF

评论

Naman JainNaman Jain
论文作者
论文提交者

智能体能否优化生产级代码库?