⏶0
GitChameleon:针对Python库版本不兼容性的AI代码生成评测
发表
由
_ 提交

作者: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia
摘要
软件库的快速演进为代码生成带来了巨大挑战,这要求系统在保持向后兼容性的同时,必须不断适应频繁的版本更新。尽管现有的代码演进基准测试提供了宝贵的见解,但它们通常缺乏基于执行的评估,无法生成符合特定库版本的代码。为解决此问题,我们推出了 GitChameleon,这是一个精心策划的新型数据集,包含 328 个 Python 代码补全问题,每个问题都以特定库版本为条件,并附有可执行的单元测试。GitChameleon 严格评估了当代大型语言模型 (LLM)、由 LLM 驱动的智能体、代码助手和 RAG 系统在执行版本条件下的代码生成任务时的能力,并通过实际运行来验证其功能准确性。我们的广泛评估表明,即使是最先进的系统在处理此任务时也面临重大挑战;企业级模型的基线成功率仅在 48-51% 之间,这凸显了该问题的复杂性。通过提供一个强调代码库动态特性的、基于执行的基准测试,GitChameleon 能够让我们更清晰地理解这一挑战,并有助于指导开发更具适应性和可靠性的 AI 代码生成方法。我们在 https://github.com/mrcabbage972/GitChameleonBenchmark 上公开了该数据集和评估代码。
GitChameleon为LLM提供了一种新颖的条件化代码生成评估工具,我们在此展示了所有LLM和AI代码辅助框架(代理、RAG、CLI/IDE代理)在生成针对顶级Python库的正确简单功能性版本特定代码方面都失败了,尽管所有版本都在分布中。