Skywork Open Reasoner 1 技术报告

发表
Chris (Yuhao) LiuChris (Yuhao) Liu 提交
作者: Jujie He, Jiacai LiuJiacai Liu, Chris (Yuhao) LiuChris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang ZhangFuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou

摘要

DeepSeek-R1 的成功突显了强化学习 (RL) 在增强大型语言模型 (LLMs) 推理能力方面的显著作用。在这项工作中,我们提出了 Skywork-OR1,一个针对长思维链 (CoT) 模型的高效且可扩展的 RL 实现。基于 DeepSeek-R1-Distill 模型系列,我们的 RL 方法取得了显著的性能提升,对于 32B 模型,在 AIME24、AIME25 和 LiveCodeBench 上的平均准确率从 57.8% 提高到 72.8%(+15.0%),对于 7B 模型,从 43.6% 提高到 57.5%(+13.9%)。我们的 Skywork-OR1-32B 模型在 AIME24 和 AIME25 基准测试中超越了 DeepSeek-R1 和 Qwen3-32B,同时在 LiveCodeBench 上取得了可比的结果。Skywork-OR1-7B 和 Skywork-OR1-Math-7B 模型在同等规模模型中展示了具有竞争力的推理能力。我们对训练流程的核心组件进行了全面的消融研究,以验证其有效性。此外,我们深入研究了熵坍缩现象,确定了影响熵动态的关键因素,并证明了缓解过早熵坍缩对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。
查看 arXiv 页面查看 PDF

评论

Chris (Yuhao) LiuChris (Yuhao) Liu
论文作者
论文提交者

DeepSeek-R1 的成功凸显了强化学习 (RL) 在增强大型语言模型 (LLM) 推理能力方面的显著作用。在这项工作中,我们提出了 Skywork-OR1,一种针对长思维链 (CoT) 模型的高效且可扩展的 RL 实现。基于 DeepSeek-R1-Distill 模型系列,我们的 RL 方法取得了显著的性能提升,对于 32B 模型,在 AIME24、AIME25 和 LiveCodeBench 上的平均准确率从 57.8\% 提高到 72.8\% (+15.0\%);对于 7B 模型,则从 43.6\% 提高到 57.5\% (+13.9\%)。我们的 Skywork-OR1-32B 模型在 AIME24 和 AIME25 基准测试上超越了 DeepSeek-R1 和 Qwen3-32B,同时在 LiveCodeBench 上取得了可比的结果。Skywork-OR1-7B 和 Skywork-OR1-Math-7B 模型在同等大小的模型中展现出具有竞争力的推理能力。我们对训练流程的核心组件进行了全面的消融研究,以验证其有效性。此外,我们深入研究了熵坍塌现象,确定了影响熵动态的关键因素,并证明了缓解过早的熵坍塌对于提高测试性能至关重要。为了支持社区研究,我们完全开源了我们的模型权重、训练代码和训练数据集。

Chris (Yuhao) LiuChris (Yuhao) Liu
论文作者
论文提交者

Poster_Revised.png

skywork-or1_perf.jpg

randomrandom

这是一篇极其严谨的论文!广泛的消融研究令人印象深刻,为所提出的方法提供了有力的验证。与熵相关的见解尤其深刻——干得好!顺便提一下,我最近开始非常关注Skywork AI的工作!