⏶0

GitChameleon：针对Python库版本不兼容性的AI代码生成评测

07月16日发表

07月17日由 _ 提交

作者: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia

摘要

软件库的快速演进为代码生成带来了巨大挑战，这要求系统在保持向后兼容性的同时，必须不断适应频繁的版本更新。尽管现有的代码演进基准测试提供了宝贵的见解，但它们通常缺乏基于执行的评估，无法生成符合特定库版本的代码。为解决此问题，我们推出了 GitChameleon，这是一个精心策划的新型数据集，包含 328 个 Python 代码补全问题，每个问题都以特定库版本为条件，并附有可执行的单元测试。GitChameleon 严格评估了当代大型语言模型 (LLM)、由 LLM 驱动的智能体、代码助手和 RAG 系统在执行版本条件下的代码生成任务时的能力，并通过实际运行来验证其功能准确性。我们的广泛评估表明，即使是最先进的系统在处理此任务时也面临重大挑战；企业级模型的基线成功率仅在 48-51% 之间，这凸显了该问题的复杂性。通过提供一个强调代码库动态特性的、基于执行的基准测试，GitChameleon 能够让我们更清晰地理解这一挑战，并有助于指导开发更具适应性和可靠性的 AI 代码生成方法。我们在 https://github.com/mrcabbage972/GitChameleonBenchmark 上公开了该数据集和评估代码。

查看 arXiv 页面查看 PDF

论文提交者

GitChameleon为LLM提供了一种新颖的条件化代码生成评估工具，我们在此展示了所有LLM和AI代码辅助框架（代理、RAG、CLI/IDE代理）在生成针对顶级Python库的正确简单功能性版本特定代码方面都失败了，尽管所有版本都在分布中。

GitChameleon：针对Python库版本不兼容性的AI代码生成评测

摘要

评论