通过拒绝采样和强化学习中的梯度方差最小化来优化思维链推理器

发表
Rui YangRui Yang 提交
作者: Jiarui YaoJiarui Yao, Yifan Hao, Hanning ZhangHanning Zhang, Hanze DongHanze Dong, XiongWei Xiong, Nan JiangNan Jiang, Tong Zhang

摘要

大型语言模型 (LLMs) 中的链式思考 (CoT) 推理可以形式化为一个隐变量问题,模型需要生成中间推理步骤。虽然诸如迭代式奖励排序微调 (RAFT) 等现有方法依赖于这种公式化,但它们通常对所有提示应用统一的推理预算,未能考虑到难度和收敛行为的差异性。这项工作将 CoT 训练的主要瓶颈确定为由于静态采样策略导致的随机梯度估计效率低下。我们提出了 GVM-RAFT,这是一种针对特定提示的动态采样分配策略,旨在在计算预算约束下最小化随机梯度方差。该方法通过监控提示接受率和随机梯度范数来动态分配计算资源,确保最终的梯度方差最小化。我们的理论分析表明,所提出的动态采样策略在适当条件下能够加速收敛并提供收敛保证。在数学推理方面的实验表明,GVM-RAFT 相较于香草版 RAFT 实现了 2-4 倍的加速,并显著提高了准确性。所提出的动态采样策略具有通用性,可以整合到其他强化学习算法中,例如 GRPO,从而在收敛性和测试准确性方面带来类似的改进。我们的代码可在 https://github.com/RLHFlow/GVM 获取。
查看 arXiv 页面查看 PDF

评论

Rui YangRui Yang
论文提交者

通过拒绝采样和强化学习中梯度方差最小化优化思维链推理器