⏶64
攀登凿刻的智慧比山顶更深邃:关于学习推理中的嘈杂奖励
发表
由
AngLv 提交
作者: Ang Lv,
Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
摘要
最近关于通过强化学习(RL)对大型语言模型(LLMs)进行后训练以实现推理的研究,通常侧重于可以精确验证和奖励的任务,例如解决数学问题。相比之下,我们的研究调查了奖励噪声的影响,这对于涉及使用奖励模型对LLMs进行后训练的实际场景来说是一个更切实的考虑。我们发现LLMs对严重的奖励噪声表现出强大的鲁棒性。例如,在数学任务中,即使人工翻转40%的奖励函数输出,Qwen-2.5-7B模型仍然能够实现快速收敛,将其在数学任务上的性能从5%提高到72%,相较于使用无噪声奖励训练的模型所达到的75%准确率。令人惊讶的是,仅通过奖励关键推理短语(即推理模式奖励,RPR)的出现,例如“首先,我需要...”——无需验证答案的正确性——模型就实现了可媲美使用严格正确性验证和准确奖励训练的模型的下游峰值性能(Qwen-2.5-7B模型准确率超过70%)。认识到推理过程比最终结果更重要,我们将RPR与嘈杂的奖励模型结合起来。RPR帮助校准了嘈杂的奖励模型,减轻了潜在的假阴性,并增强了LLM在开放式任务上的性能。这些发现表明在预训练阶段提高模型基础能力的重要性,同时也为改进后训练技术提供了见解。我们的代码和脚本可在 https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason 获取。
评论
论文提交者
- 我们发现大型语言模型(LLMs)对显著的奖励噪声表现出很强的鲁棒性。例如,在数学任务中手动翻转40%的奖励函数输出,Qwen-2.5-7B模型仍然能够快速收敛,将其在数学任务上的表现从5%提升到72%,而使用无噪声奖励训练的模型达到75%的准确率。我们假设导致错误答案的输出可能仍然包含有价值的信息——具体来说,是有用的推理模式。2. 为了检验这一假设,我们仅奖励关键推理短语(即推理模式奖励,RPR)的出现,例如“首先,我需要……”——而不验证答案的正确性。模型达到了可观的下游性能峰值(Qwen-2.5-7B模型准确率超过70%),与经过严格正确性验证和精确奖励训练的模型相当。这表明强化学习的收益可能主要来自于教会模型采用合适的推理风格。所需的基本问题解决能力很大程度上是在预训练期间获得的。3. 认识到推理过程的重要性,我们将RPR与噪声奖励模型结合。RPR通过减轻潜在的假阴性奖励,帮助校准了噪声奖励模型。通过校准后的奖励模型,LLMs在开放式自然语言处理任务中的表现得到提升,小型模型也能够通过强化学习成功获得推理能力。