⏶52
Skywork Open Reasoner 1 技术报告
发表
由
Chris (Yuhao) Liu 提交
作者: Jujie He,
Jiacai Liu,
Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang,
Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou
摘要
DeepSeek-R1 的成功突显了强化学习 (RL) 在增强大型语言模型 (LLMs) 推理能力方面的显著作用。在这项工作中,我们提出了 Skywork-OR1,一个针对长思维链 (CoT) 模型的高效且可扩展的 RL 实现。基于 DeepSeek-R1-Distill 模型系列,我们的 RL 方法取得了显著的性能提升,对于 32B 模型,在 AIME24、AIME25 和 LiveCodeBench 上的平均准确率从 57.8% 提高到 72.8%(+15.0%),对于 7B 模型,从 43.6% 提高到 57.5%(+13.9%)。我们的 Skywork-OR1-32B 模型在 AIME24 和 AIME25 基准测试中超越了 DeepSeek-R1 和 Qwen3-32B,同时在 LiveCodeBench 上取得了可比的结果。Skywork-OR1-7B 和 Skywork-OR1-Math-7B 模型在同等规模模型中展示了具有竞争力的推理能力。我们对训练流程的核心组件进行了全面的消融研究,以验证其有效性。此外,我们深入研究了熵坍缩现象,确定了影响熵动态的关键因素,并证明了缓解过早熵坍缩对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。
DeepSeek-R1 的成功凸显了强化学习 (RL) 在增强大型语言模型 (LLM) 推理能力方面的显著作用。在这项工作中,我们提出了 Skywork-OR1,一种针对长思维链 (CoT) 模型的高效且可扩展的 RL 实现。基于 DeepSeek-R1-Distill 模型系列,我们的 RL 方法取得了显著的性能提升,对于 32B 模型,在 AIME24、AIME25 和 LiveCodeBench 上的平均准确率从 57.8\% 提高到 72.8\% (+15.0\%);对于 7B 模型,则从 43.6\% 提高到 57.5\% (+13.9\%)。我们的 Skywork-OR1-32B 模型在 AIME24 和 AIME25 基准测试上超越了 DeepSeek-R1 和 Qwen3-32B,同时在 LiveCodeBench 上取得了可比的结果。Skywork-OR1-7B 和 Skywork-OR1-Math-7B 模型在同等大小的模型中展现出具有竞争力的推理能力。我们对训练流程的核心组件进行了全面的消融研究,以验证其有效性。此外,我们深入研究了熵坍塌现象,确定了影响熵动态的关键因素,并证明了缓解过早的熵坍塌对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。