重新思考LLM代码生成中的验证:从生成到测试

发表
Zihan MaZihan Ma 提交
作者: Zihan MaZihan Ma, TaolinZhangTaolin Zhang, Maosong Cao, Wenwei Zhang, Minnan Luo, Songyang ZhangSongyang Zhang, Kai Chen

摘要

大型语言模型 (LLM) 近期在 HumanEval 和 LiveCodeBench 等代码生成基准测试中取得了显著成功。然而,详细检查表明,这些评估套件通常只包含数量有限的同质测试用例,导致细微的故障未能被检测到。这不仅人为地夸大了测量的性能,也损害了利用可验证奖励的强化学习 (RLVR) 框架中准确的奖励估计。为了解决这些关键缺陷,我们通过提出旨在严格量化测试套件彻底性的多维指标,系统地研究了测试用例生成 (TCG) 任务。此外,我们引入了一种人机协作的 LLM 方法 (SAGA),利用人类编程专业知识和 LLM 推理能力,旨在显著提高生成测试用例的覆盖率和质量。此外,我们开发了一个 TCGBench 以促进对 TCG 任务的研究。实验表明,SAGA 在 TCGBench 上达到了 90.62% 的检测率和 32.58% 的验证器准确率。SAGA 合成的代码生成评估基准的验证器准确率 (Verifier Acc) 比 LiveCodeBench-v6 高 10.78%。这些结果证明了我们所提出方法的有效性。我们希望这项工作有助于为可靠的 LLM 代码评估建立可扩展的基础,进一步推动代码生成中的 RLVR,并为自动化对抗性测试合成和自适应基准集成铺平道路。
查看 arXiv 页面查看 PDF

评论

Zihan MaZihan Ma
论文作者
论文提交者

技术报告