OpenCodeReasoning-II:一种通过自我批判实现简单测试时缩放的方法

发表
Somshubra MajumdarSomshubra Majumdar 提交
作者: Wasi Uddin Ahmad, Somshubra MajumdarSomshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg

摘要

推理型大型语言模型(LLM)的最新进展,特别是它们通过测试时间扩展所展现的潜力,为代码生成和代码评审的知识蒸馏创造了重要的机会。然而,这两个领域的进展都主要依赖于大规模、高质量的数据集。在这项工作中,我们介绍了OpenCodeReasoning-II,一个包含250万个问答-解决方案-评审三元组(约3.5万个独立编程问题)的数据集,其规模几乎是此前最大公开可用代码推理数据集的两倍。在此工作中,我们采用了两阶段的监督微调策略。第一阶段专注于代码生成微调,而第二阶段则涉及代码生成和评审模型的联合训练。我们最终微调的Qwen2.5-Instruct模型在代码生成方面的性能超越或达到了此前最佳的开源蒸馏模型。值得注意的是,我们将代码生成和评审模型集成后,显著提升了竞争性编程性能。此外,我们提出了LiveCodeBench基准的扩展,以专门支持C++编程语言,从而促进使用该基准对LLM进行更全面的评估。
查看 arXiv 页面查看 PDF

评论

Somshubra MajumdarSomshubra Majumdar
论文作者
论文提交者

近期基于推理的大型语言模型(LLM)的进展,特别是它们通过测试时扩展所展现的潜力,为代码生成和批判领域的知识蒸馏创造了重要机会。然而,这两个领域的进展都根本上依赖于大规模、高质量的数据集。在这项工作中,我们引入了OpenCodeReasoning-II,一个包含250万个问题-解决方案-批判三元组(约3.5万个独立编程问题)的数据集,使其规模几乎是此前最大的公开可用代码推理数据集的两倍。在这项工作中,我们采用了两阶段监督微调策略。第一阶段专注于代码生成的微调,而第二阶段则涉及代码生成和批判模型的联合训练。我们得到的微调Qwen2.5-Instruct模型在代码生成方面的性能超越或等同于此前最佳的开源蒸馏模型。值得注意的是,我们将代码生成和批判模型集成在一起,显著提升了竞技编程性能。此外,我们提出了LiveCodeBench基准的扩展,以专门支持C++编程语言,从而促进使用此基准进行更全面的LLM评估。