AutoCodeBench:大型语言模型是自动代码基准生成器

发表
xxzccxxzcc 提交
作者: Jason Chou, Ao Liu, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai, Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu, Wiggin Zhou, Fengzong Lian

摘要

大型语言模型(LLM)在各个领域都展现出卓越的能力,其中代码生成成为一个关键的关注领域。尽管已经提出了许多基准来评估它们的代码生成能力,但这些基准面临着几个关键限制。首先,它们通常依赖手动标注,这既耗时又难以扩展到不同的编程语言和问题复杂性。其次,大多数现有基准主要关注 Python,而少数多语言基准则存在难度有限和语言分布不均的问题。为了解决这些挑战,我们提出了 AutoCodeGen,一种无需手动标注即可生成高难度多语言代码生成数据集的自动化方法。AutoCodeGen 通过使用 LLM 生成测试输入并通过多语言沙盒获取测试输出来确保测试用例的正确性和完整性,同时通过逆序问题生成和多个过滤步骤实现高数据质量。利用这种新颖的方法,我们推出了 AutoCodeBench,一个大规模的代码生成基准,包含 3,920 个问题,均匀分布在 20 种编程语言中。它专门用于评估 LLM 在具有挑战性、多样化和实用的多语言任务中的表现。我们在 AutoCodeBench 及其简化版 AutoCodeBench-Lite 上评估了 30 多个领先的开源和专有 LLM。结果表明,即使是最先进的 LLM 也在这些任务的复杂性、多样性和多语言性质方面举步维艰。此外,我们引入了 AutoCodeBench-Complete,专门为基础模型设计,以评估它们的少样本代码生成能力。我们希望 AutoCodeBench 系列能成为宝贵的资源,并激励社区关注更具挑战性和实用性的多语言代码生成场景。
查看 arXiv 页面查看 PDF

评论

xxzccxxzcc
论文提交者

大型语言模型(LLMs)在各种领域都展现出了卓越的能力,其中代码生成成为了一个关键的关注点。虽然已经提出了许多基准来评估它们的代码生成能力,但这些基准面临着几个关键限制。首先,它们通常依赖于手动标注,这既耗时又难以在不同编程语言和问题复杂度之间扩展。其次,大多数现有基准主要关注Python,而少数多语言基准则存在难度有限和语言分布不均的问题。为了解决这些挑战,我们提出了AutoCodeGen,一种自动化生成高难度多语言代码生成数据集而无需手动标注的方法。AutoCodeGen通过使用LLMs生成测试输入并通过多语言沙盒获取测试输出来确保测试用例的正确性和完整性,同时通过逆序问题生成和多重过滤步骤实现高数据质量。利用这种新颖的方法,我们引入了AutoCodeBench,一个大规模的代码生成基准,包含3,920个问题,均匀分布在20种编程语言中。它专门设计用于评估LLMs在具有挑战性、多样化和实用的多语言任务中的表现。我们评估了AutoCodeBench及其简化版AutoCodeBench-Lite上超过30个领先的开源和专有LLMs。结果表明,即使是最先进的LLMs也难以应对这些任务的复杂性、多样性和多语言性质。此外,我们引入了AutoCodeBench-Complete,专门为基础模型设计,以评估它们的少样本代码生成能力。我们希望AutoCodeBench系列能成为宝贵的资源,并激励社区关注更具挑战性和实用的多语言代码生成场景。

image.png

image.png

image.png

image.png

image.png

RoyRoy

基准和 GitHub 仓库在哪里?