SwS:强化学习中用于LLM推理的自我感知弱点驱动问题合成

发表
Zirui SongZirui Song 提交
作者: Xiao LiangXiao Liang, Zhongzhi LiZhong-Zhi Li, Yeyun Gong, YangWang92Yang Wang, Hengyuan Zhang, Yeyun GongYelong Shen, Ying Nian Wu, Weizhu Chen

摘要

可验证奖励强化学习 (RLVR) 已被证明在训练大型语言模型 (LLM) 处理复杂推理任务(如数学问题求解)方面是有效的。RLVR 可扩展性的一个前提是具备高质量、答案精确且可验证的问题集。然而,现有面向蒸馏的合成数据集中精心设计的人工标注数学问题和有限验证答案的稀缺性限制了它们在强化学习中的有效性。此外,大多数问题合成策略在不考虑模型能力的情况下不加区别地扩展问题集,导致生成有用问题的效率低下。为了缓解这个问题,我们引入了一种自我感知弱点驱动的问题合成框架 (SwS),该框架系统地识别模型缺陷并利用它们进行问题增强。具体而言,我们将弱点定义为模型在强化学习训练过程中通过迭代采样始终未能学习的问题。随后,我们从这些失败案例中提取核心概念,并合成新问题以在随后的增强训练中强化模型的薄弱区域,使其能够专注于并逐步克服其弱点。我们的框架无需依赖外部知识蒸馏,通过赋能模型在强化学习中自我识别并解决其弱点,从而实现强大的泛化能力,在八个主流推理基准测试中,7B 和 32B 模型分别获得了 10.0% 和 7.7% 的平均性能提升。
查看 arXiv 页面查看 PDF

评论

Zirui SongZirui Song
论文提交者

备注