从跨域视角再探用于大语言模型推理的强化学习

发表
chengcheng 提交
作者: Zhoujun Cheng, Shibo Hao, Tianyang LiuTianyang Liu, Fan ZhouFan Zhou, Yutao Xie, Feng YaoFeng Yao, Yuexin Bian, Yonghao Zhuang, Nilabjo Dey, Yuheng Zha, Yi Gu, Kun Zhou, Yuqi Wang, Yuan LiYuan Li, Richard Fan, Jianshu SheJianshu She, Chengqian Gao, Abulhair Saparov, Haonan Li, Taylor W. KillianTaylor W. Killian, Mikhail YurochkinMikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

摘要

强化学习(RL)已成为改善大型语言模型(LLM)推理的一种有前景的方法,然而,大多数公开的努力都狭隘地集中在数学和代码领域,限制了我们对其在通用推理方面更广泛适用性的理解。一个关键挑战在于,跨不同推理领域缺乏可靠、可扩展的RL奖励信号。我们引入了Guru,这是一个经过精心策划的RL推理语料库,包含9.2万个可验证的示例,涵盖六个推理领域——数学、代码、科学、逻辑、模拟和表格——每个领域都通过领域特定的奖励设计、去重和过滤来构建,以确保RL训练的可靠性和有效性。基于Guru,我们系统地重新审视了RL在LLM推理方面的既定发现,并观察到跨领域存在显著差异。例如,虽然之前的研究表明RL主要从预训练模型中提取现有知识,但我们的结果揭示了更细致的模式:在预训练期间经常出现的领域(数学、代码、科学)很容易从跨领域RL训练中受益,而预训练暴露有限的领域(逻辑、模拟和表格)则需要领域内训练才能获得有意义的性能提升,这表明RL可能有助于真正的技能习得。最后,我们推出了Guru-7B和Guru-32B,这是两款在用公开数据进行RL训练的开源模型中达到最先进性能的模型,在我们的包含17项任务、横跨六个推理领域的评估套件上,分别比最佳基线高出7.9%和6.7%。我们还表明,我们的模型有效提高了其基础模型的Pass@k性能,特别是在预训练数据中不太可能出现的复杂任务上。我们发布了数据、模型、训练和评估代码,以促进通用推理:https://github.com/LLM360/Reasoning360
查看 arXiv 页面查看 PDF

评论

chengcheng
论文提交者

提交