⏶3

GSO：评估SWE-Agents的挑战性软件优化任务

05月29日发表

05月30日由 Naman Jain 提交

作者: Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica

摘要

开发高性能软件是一项复杂的任务，需要专业的知识。我们引入了 GSO，这是一个用于评估语言模型在开发高性能软件方面的能力的基准。我们开发了一个自动化流程，用于生成和执行性能测试，分析代码仓库的提交历史，从而在涵盖不同领域和编程语言的 10 个代码库中识别出 102 个具有挑战性的优化任务。向一个智能体提供代码库和性能测试作为精确的规范，并要求其提高运行效率，其改进程度将与专家开发人员的优化进行对比。我们的定量评估显示，领先的 SWE-Agents 表现显著不佳，成功率不到 5%，即使通过推理时扩展，改进也有限。我们的定性分析确定了主要的失败模式，包括对低级语言的处理困难、采取懒惰的优化策略以及难以准确定位瓶颈。我们发布了基准的代码、相关资源以及智能体的运行轨迹，以促进未来的研究。

查看 arXiv 页面查看 PDF

Naman Jain

论文作者

论文提交者

智能体能否优化生产级代码库？

GSO：评估SWE-Agents的挑战性软件优化任务

摘要

评论