LLM 能为算法问题生成高质量测试用例吗?TestCase-Eval:故障覆盖率和暴露的系统性评估

发表
Yilun ZhaoYilun Zhao 提交
作者: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun ZhaoYilun Zhao

摘要

我们引入了TestCase-Eval,一个用于系统评估大语言模型(LLM)在测试用例生成方面表现的新基准。TestCase-Eval包含来自Codeforces平台的500个算法问题和100,000个人工解决方案。它侧重于两个关键任务:(1) 故障覆盖率,衡量LLM生成的测试集在探测不同输入场景和覆盖广泛潜在故障模式方面的表现。(2) 故障暴露,评估LLM是否能够制作出揭示特定错误代码实现的定制测试输入。我们对19个最先进的开源和专有LLM在TestCase-Eval上进行了全面评估,提供了关于它们在为算法问题生成有效测试用例方面的优势和局限性的见解。
查看 arXiv 页面查看 PDF

评论

Yilun ZhaoYilun Zhao
论文作者
论文提交者

我们引入了 TestCase-Eval,这是一个用于系统评估大型语言模型在测试用例生成方面表现的新基准。