DAPO:大规模开源LLM强化学习系统

03月18日发表
04月12日由 AKAK 提交
作者: Qiying YuQiying Yu, Zheng ZhangZheng Zhang, Ruofei Zhu, Yufeng YuanYufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong LiuGaohong Liu, Lingjun LiuLingjun Liu, Xin Liu, haibinHaibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Shawn/Yuxuan TongYuxuan Tong, Chi Zhang, Mofan ZhangMofan Zhang, Wang Zhang, Hang Zhu, Jinhua ZhuJinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin ZhangYa-Qin Zhang, Lin Yan, Mu Qiao, Yonghui WuYonghui Wu, Mingxuan Wang

摘要

推理扩展赋予大型语言模型前所未有的推理能力,其中强化学习是激发复杂推理的核心技术。然而,最先进的推理大型语言模型的关键技术细节被隐瞒了(例如在 OpenAI o1 博客和 DeepSeek R1 技术报告中),因此社区仍在努力重现他们的强化学习训练结果。我们提出了解耦裁剪和动态采样策略优化 (DAPO) 算法,并完全开源了一个最先进的大规模强化学习系统,该系统使用 Qwen2.5-32B 基础模型在 AIME 2024 上取得了 50 分的成绩。与之前隐瞒训练细节的工作不同,我们介绍了我们算法的四项关键技术,这些技术使大规模大型语言模型强化学习获得成功。此外,我们开源了我们的训练代码,该代码构建在 verl 框架之上,以及一个精心策划和处理的数据集。我们开源系统的这些组件增强了可重复性,并支持未来对大规模大型语言模型强化学习的研究。

评论

AKAK
论文提交者

Screenshot 2025-03-18 at 10.26.16 PM.png

AI Papers AcademyAI Papers Academy

视频和书面解释 - https://aipapersacademy.com/dapo/

Bayron Vladimir cortes realpeBayron Vladimir cortes realpe
此评论已隐藏。
Bayron Vladimir cortes realpeBayron Vladimir cortes realpe
此评论已隐藏。