开源推理模型缺失的一环:用于缓解强化学习中短CoT大语言模型冷启动的数据集

发表
Hyungjoo ChaeHyungjoo Chae 提交
作者: Hyungjoo ChaeHyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee

摘要

随着R1(一个公开可用的大型推理模型,LRM)的发布,研究人员通常通过在R1的长链式思考(CoT)推理上训练语言模型来训练新的LRM。尽管先前的工作表明LRM的能力可以通过直接蒸馏来复现,但持续依赖现有模型(例如R1)仍然是推动该领域发展的关键限制。作为独立LRM开发的第一步,本文探讨了使用未经推理时扩展训练的LLM来构建长CoT数据集的可能性。为此,我们提出了Long CoT Collection,这是一个包含10万个CoT推理过程的数据集,使用现有短CoT LLM进行标注。我们开发了一个管线,将R1的新颖推理策略引入到短CoT LLM中,使它们能够进行更长的思考,并引入了思考预算的可控性,以更好地管理过度思考问题。我们的大量分析验证了我们的数据集达到了与R1相当或略低的质量。此外,我们的实验表明,在我们的数据集上训练不仅能增强通用推理能力,而且为强化学习提供了坚实基础——在我们的数据上初始化的模型通过RLVR实现了2-3倍的更大收益。
查看 arXiv 页面查看 PDF

评论

Hyungjoo ChaeHyungjoo Chae
论文作者
论文提交者

image.png