⏶117
DAPO:大规模开源LLM强化学习系统
03月18日发表
04月12日由
AK 提交

作者:
Qiying Yu,
Zheng Zhang, Ruofei Zhu,
Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan,
Gaohong Liu,
Lingjun Liu, Xin Liu,
Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng,
Yuxuan Tong, Chi Zhang,
Mofan Zhang, Wang Zhang, Hang Zhu,
Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma,
Ya-Qin Zhang, Lin Yan, Mu Qiao,
Yonghui Wu, Mingxuan Wang



摘要
推理扩展赋予大型语言模型前所未有的推理能力,其中强化学习是激发复杂推理的核心技术。然而,最先进的推理大型语言模型的关键技术细节被隐瞒了(例如在 OpenAI o1 博客和 DeepSeek R1 技术报告中),因此社区仍在努力重现他们的强化学习训练结果。我们提出了解耦裁剪和动态采样策略优化 (DAPO) 算法,并完全开源了一个最先进的大规模强化学习系统,该系统使用 Qwen2.5-32B 基础模型在 AIME 2024 上取得了 50 分的成绩。与之前隐瞒训练细节的工作不同,我们介绍了我们算法的四项关键技术,这些技术使大规模大型语言模型强化学习获得成功。此外,我们开源了我们的训练代码,该代码构建在 verl 框架之上,以及一个精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性,并支持未来对大规模大型语言模型强化学习的研究。
评论

论文提交者