⏶5

OpenCodeReasoning-II：一种通过自我批判实现简单测试时缩放的方法

07月11日发表

07月16日由 Somshubra Majumdar 提交

作者: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg

摘要

推理型大型语言模型（LLM）的最新进展，特别是它们通过测试时间扩展所展现的潜力，为代码生成和代码评审的知识蒸馏创造了重要的机会。然而，这两个领域的进展都主要依赖于大规模、高质量的数据集。在这项工作中，我们介绍了OpenCodeReasoning-II，一个包含250万个问答-解决方案-评审三元组（约3.5万个独立编程问题）的数据集，其规模几乎是此前最大公开可用代码推理数据集的两倍。在此工作中，我们采用了两阶段的监督微调策略。第一阶段专注于代码生成微调，而第二阶段则涉及代码生成和评审模型的联合训练。我们最终微调的Qwen2.5-Instruct模型在代码生成方面的性能超越或达到了此前最佳的开源蒸馏模型。值得注意的是，我们将代码生成和评审模型集成后，显著提升了竞争性编程性能。此外，我们提出了LiveCodeBench基准的扩展，以专门支持C++编程语言，从而促进使用该基准对LLM进行更全面的评估。

查看 arXiv 页面查看 PDF

Somshubra Majumdar

论文作者

论文提交者

近期基于推理的大型语言模型（LLM）的进展，特别是它们通过测试时扩展所展现的潜力，为代码生成和批判领域的知识蒸馏创造了重要机会。然而，这两个领域的进展都根本上依赖于大规模、高质量的数据集。在这项工作中，我们引入了OpenCodeReasoning-II，一个包含250万个问题-解决方案-批判三元组（约3.5万个独立编程问题）的数据集，使其规模几乎是此前最大的公开可用代码推理数据集的两倍。在这项工作中，我们采用了两阶段监督微调策略。第一阶段专注于代码生成的微调，而第二阶段则涉及代码生成和批判模型的联合训练。我们得到的微调Qwen2.5-Instruct模型在代码生成方面的性能超越或等同于此前最佳的开源蒸馏模型。值得注意的是，我们将代码生成和批判模型集成在一起，显著提升了竞技编程性能。此外，我们提出了LiveCodeBench基准的扩展，以专门支持C++编程语言，从而促进使用此基准进行更全面的LLM评估。

OpenCodeReasoning-II：一种通过自我批判实现简单测试时缩放的方法

摘要

评论