rStar-Coder:通过大规模验证数据集扩展竞争性代码推理能力

发表
Li Lyna ZhangLi Lyna Zhang 提交
作者: Yifei LiuYifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang

摘要

提高大型语言模型(LLMs)的代码推理能力受到高难度数据集稀缺的根本限制,特别是那些需要可验证的输入-输出测试用例以进行大规模严格解决方案验证的数据集。我们引入了 rStar-Coder,它通过构建一个包含 418K 竞赛级别代码问题、580K 长推理解决方案以及丰富多样难度测试用例的大规模、经过验证的数据集,显著提高了 LLM 的代码推理能力。这通过以下三个核心贡献实现:(1)我们整理了竞赛编程代码问题和 oracle 解决方案,以合成新的、可解决的问题;(2)我们引入了一个可靠的输入-输出测试用例合成管线,该管线将生成过程解耦为三步输入生成方法和一个用于有效输出标注的相互验证机制;(3)我们用高质量、经过测试用例验证的长推理解决方案增强了问题。在 Qwen 模型(1.5B-14B)上跨各种代码推理基准进行的广泛实验表明,rStar-Coder 数据集具有卓越性,在更小的模型尺寸下实现了与前沿推理 LLMs 媲美的领先性能。在 LiveCodeBench 上,rStar-Coder 将 Qwen2.5-7B 的性能从 17.4% 提高到令人印象深刻的 57.3%,将 Qwen2.5-14B 的性能从 23.3% 提高到 62.5%,超越了 o3-mini (low) 3.1%。在更具挑战性的美国计算机奥林匹克竞赛中,我们的 7B 模型平均 pass@1 准确率达到 16.15%,优于前沿级别的 QWQ-32B。代码和数据集将发布在 https://github.com/microsoft/rStar
查看 arXiv 页面查看 PDF

评论

Li Lyna ZhangLi Lyna Zhang
论文提交者

我们推出了 rStar-Coder,它构建了一个包含多样化和可扩展测试用例的大规模竞争性代码数据集,使我们的 14B 模型能够实现与 QWQ-32B 相当的代码推理性能。

pp

太酷了,你们做得太棒了!代码和数据集大概什么时候发布?

Li Lyna ZhangLi Lyna Zhang
论文提交者

谢谢!我们目前正在进行内部评审流程。一旦完成,我们将尽快发布数据集,以帮助推动社区中的代码推理研究。