大型推理模型的强化学习调研

发表
Kaiyan ZhangKaiyan Zhang 提交
作者: Kaiyan ZhangKaiyan Zhang, Yuxin ZuoYuxin Zuo, Bingxiang HeBingxiang He, Youbang SunYoubang Sun, Runze LiuRunze Liu, Che Jiang, Yuchen FanYuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, zhuXuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, HuggingHuayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning DingNing Ding, Bowen Zhou

摘要

AI 生成总结
强化学习增强了大型语言模型处理复杂推理任务的能力,但随着该领域的发展,面临着可扩展性和基础设施方面的挑战。
本文对强化学习(RL)在大型语言模型(LLM)推理方面的最新进展进行了综述。RL 在提升 LLM 能力方面取得了显著成功,尤其是在处理数学和编码等复杂逻辑任务方面。因此,RL 已成为将 LLM 转化为 LRM 的基础方法。随着该领域的快速发展,对 LRM 进行 RL 的进一步扩展,不仅在计算资源方面,而且在算法设计、训练数据和基础设施方面都面临着根本性的挑战。为此,及时回顾该领域的发展,重新评估其发展轨迹,并探索增强 RL 可扩展性以实现人工智能超级智能(ASI)的策略是必要的。特别是,我们考察了自 DeepSeek-R1 发布以来,将 RL 应用于 LLM 和 LRM 以提高推理能力的研究,重点关注基础组件、核心问题、训练资源和下游应用,以识别该快速发展领域未来的机遇和方向。我们希望本次综述能够促进未来在更广泛推理模型的 RL 研究。Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
查看 arXiv 页面查看 PDF

评论

Kaiyan ZhangKaiyan Zhang
论文作者
论文提交者

我们介绍了 RL for LRMs 的基础组成部分,以及开放性问题、训练资源和应用。本次调查的重点是语言代理与环境在长期演化过程中的大规模交互。 本文的目标是特别强调探索将计算转化为智能的更具可扩展性的途径。

Yury PanikovYury Panikov

谢谢

M Saad SalmanM Saad Salman

第 25 页有印刷错误 Implicit Fine-Tuning (IFT) [Hua et al., 2024] -> "Intuitive" Fine-Tuning

Kaiyan ZhangKaiyan Zhang
论文作者
论文提交者

感谢您的指正!🙌 我们将在论文的下一个版本中进行修复。