⏶28

重新思考LLM代码生成中的验证：从生成到测试

07月09日发表

07月10日由 Zihan Ma 提交

作者: Zihan Ma, TaolinZhang Taolin Zhang, Maosong Cao, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen

摘要

大型语言模型 (LLM) 近期在 HumanEval 和 LiveCodeBench 等代码生成基准测试中取得了显著成功。然而，详细检查表明，这些评估套件通常只包含数量有限的同质测试用例，导致细微的故障未能被检测到。这不仅人为地夸大了测量的性能，也损害了利用可验证奖励的强化学习 (RLVR) 框架中准确的奖励估计。为了解决这些关键缺陷，我们通过提出旨在严格量化测试套件彻底性的多维指标，系统地研究了测试用例生成 (TCG) 任务。此外，我们引入了一种人机协作的 LLM 方法 (SAGA)，利用人类编程专业知识和 LLM 推理能力，旨在显著提高生成测试用例的覆盖率和质量。此外，我们开发了一个 TCGBench 以促进对 TCG 任务的研究。实验表明，SAGA 在 TCGBench 上达到了 90.62% 的检测率和 32.58% 的验证器准确率。SAGA 合成的代码生成评估基准的验证器准确率 (Verifier Acc) 比 LiveCodeBench-v6 高 10.78%。这些结果证明了我们所提出方法的有效性。我们希望这项工作有助于为可靠的 LLM 代码评估建立可扩展的基础，进一步推动代码生成中的 RLVR，并为自动化对抗性测试合成和自适应基准集成铺平道路。

查看 arXiv 页面查看 PDF

Zihan Ma

论文作者

论文提交者

技术报告

重新思考LLM代码生成中的验证：从生成到测试

摘要

评论