⏶14
LLM推理的极简主义方法:从拒绝采样到强化学习
发表
由
Wei Xiong 提交
作者: Wei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong
摘要
强化学习 (RL) 已成为微调大型语言模型 (LLM) 以执行复杂推理任务的主流方法。在最近的方法中,GRPO 因其在训练 DeepSeek-R1 等模型方面的经验性成功而脱颖而出,但其有效性的来源仍然知之甚少。在这项工作中,我们从类似 reinforce 的算法的角度重新审视 GRPO,并分析其核心组件。令人惊讶的是,我们发现一个简单的拒绝采样基线 RAFT,它仅在积极奖励的样本上进行训练,其性能与 GRPO 和 PPO 相当。我们的消融研究表明,GRPO 的主要优势来自丢弃具有完全不正确响应的提示,而不是来自其奖励归一化。受此启发,我们提出了 Reinforce-Rej,它是策略梯度的最小扩展,可以过滤完全不正确和完全正确的样本。Reinforce-Rej 提高了 KL 效率和稳定性,是更复杂的 RL 算法的轻量级但有效的替代方案。我们提倡 RAFT 作为稳健且可解释的基线,并建议未来的研究应侧重于更原则性的负样本合并设计,而不是不加区分地依赖它们。我们的发现为未来基于奖励的大型语言模型后训练工作提供了指导。
一个来自拒绝采样微调 -> reinforce -> grpo 的案例研究,以理解强化学习训练的动态。