LeetCodeDataset:用于代码 LLM 的稳健评估和高效训练的时间数据集

发表
Wei ShenWei Shen 提交
作者: Yunhui Xia, Wei ShenWei Shen, Yan Wang, Jason Klein LiuJason Klein Liu, Huifeng Sun, Siyue Wu, Jian HuJian Hu, Xiaolong Xu

摘要

我们介绍了 LeetCodeDataset,这是一个高质量的基准,用于评估和训练代码生成模型,解决了 LLM 研究中的两个关键挑战:缺乏以推理为中心的编码基准和独立的训练测试平台。通过策划具有丰富元数据、广泛覆盖范围、每个问题 100 多个测试用例和时间分割(2024 年 7 月前后)的 LeetCode Python 问题,我们的数据集实现了无污染评估和高效的监督微调 (SFT)。实验表明,推理模型显着优于非推理模型,而仅使用 2.6K 模型生成的解决方案进行 SFT 即可实现与 110K 样本对应物相当的性能。数据集和评估框架可在 Hugging Face 和 Github 上获取。
查看 arXiv 页面查看 PDF

评论