测试即提示:一个面向LLM代码生成的测试驱动开发基准

发表
Yi CuiYi Cui 提交
作者: Yi CuiYi Cui

摘要

我们引入了WebApp1K,这是一个新颖的基准测试,用于评估大型语言模型(LLM)在测试驱动开发(TDD)任务中的表现,其中测试用例既作为代码生成的提示,也作为验证。与依赖自然语言提示的传统方法不同,我们的基准测试强调LLM直接从测试用例解释和实现功能的能力,这反映了真实的软件开发实践。该基准测试包含跨越20个应用领域的1000个多样化挑战,评估LLM在上下文长度和多特性复杂性的限制下生成紧凑、功能性代码的能力。我们的研究结果表明,指令遵循和情境学习是TDD成功的关键能力,其重要性超过了一般的编码熟练度或预训练知识。通过对19个前沿模型的全面评估,我们揭示了性能瓶颈,例如长提示中的指令丢失,并提供了涵盖多种根本原因的详细错误分析。这项工作强调了针对TDD的基准测试的实际价值,并为在严格的、应用驱动的编码场景中提升LLM的能力奠定了基础。
查看 arXiv 页面查看 PDF

评论

Yi CuiYi Cui
论文作者
论文提交者

一个用于LLM代码生成的测试驱动开发基准