⏶9
GRPO-MA:GRPO 中的多答案生成,用于稳定高效的思维链训练
发表
由
Guanghui Ren 提交
作者: Hongcheng Wang, Yinuo Huang, Sukai Wang,
Guanghui Ren, Hao Dong
摘要
AI 生成总结
GRPO-MA 通过多答案生成,解决了梯度耦合、稀疏奖励和不稳定的优势估计问题,从而改进了大语言模型(LLM)和视觉语言模型(VLM)的链式思维(Chain-of-Thought)推理训练。最近的进展,例如 DeepSeek-R1,已表明 GRPO 算法,一种强化学习(RL)方法,可以有效地训练大型语言模型(LLM)和视觉语言模型(VLM)中的链式思考(CoT)推理。在本文中,我们分析了 GRPO 的三个挑战:思想和答案之间的梯度耦合、由于并行采样有限而导致的稀疏奖励信号以及不稳定的优势估计。为了缓解这些挑战,我们提出了 GRPO-MA,一种简单但理论上合理的方法,它利用每个思想过程的多答案生成,从而实现更鲁棒、更高效的优化。从理论上讲,我们表明随着每个思想的答案数量的增加,思想优势的方差会减小。从经验上看,我们的梯度分析证实了这种效应,表明 GRPO-MA 与 GRPO 相比可以减少梯度峰值。在数学、代码和各种多模态任务上的实验表明,GRPO-MA 显著提高了性能和训练效率。我们的消融研究进一步表明,增加每个思想的答案数量会持续提高模型性能。
在本文中,我们分析了 GRPO 的三个挑战:思维和答案之间的梯度耦合、由于并行采样有限导致的稀疏奖励信号,以及不稳定的优势估计。为了缓解这些挑战,我们提出了 GRPO-MA,这是一种简单但理论上合理的 C 方法,它利用每个思维过程的多答案生成,从而实现更鲁棒、更高效的优化。