⏶12
增加采样,减少思考:用于简洁推理的组过滤策略优化
发表
由
Vaishnavi Shrivastava 提交

作者: Vaishnavi Shrivastava, Ahmed Awadallah, Vidhisha Balachandran, Shivam Garg, Harkirat Behl, Dimitris Papailiopoulos
摘要
使用可验证奖励的强化学习训练的大语言模型倾向于牺牲长度来换取准确率——通过增加回答长度来提升准确率。虽然难题可能需要更长的答案,但许多词元仅仅是“填充物”:重复、冗长的文本,并未取得实质性进展。我们引入了 GFPO(分组过滤策略优化),通过在训练期间为每个问题采样更大的分组,并根据两个关键指标过滤用于训练的回答来抑制这种长度爆炸:(1)回答长度和(2)词元效率:即每个词元的奖励比率。通过在训练时增加采样,我们教会模型在推理时减少思考。在 Phi-4-reasoning 模型上,GFPO 在具有挑战性的 STEM 和编程基准测试(AIME 24/25, GPQA, Omni-MATH, LiveCodeBench)中,将 GRPO 的长度膨胀减少了 46-71%,同时保持了准确率。优化每个词元的奖励进一步将长度膨胀的减少幅度提升至 71-85%。我们还提出了自适应难度 GFPO,它根据实时难度评估,动态地为更难的问题分配更多的训练资源,从而在计算效率和准确性之间取得更好的平衡,尤其是在难题上。GFPO 表明,增加训练时计算量可以直接转化为减少测试时计算量——这是一种简单而有效的权衡,以实现高效推理。
通过可验证奖励进行强化学习训练的大型语言模型倾向于牺牲准确性来换取长度——通过增加响应长度来获得准确性上的提升。虽然更长的答案可能适用于更难的问题,但许多标记只是“填充物”:重复的、冗长的文本,并没有实际进展。我们引入了 GFPO(组过滤策略优化),通过在训练期间为每个问题采样更大的组,并根据两个关键指标过滤响应进行训练,从而抑制这种长度爆炸:(1)响应长度和(2)令牌效率:每令牌奖励比率。通过在训练时进行更多采样,我们教会模型在推理时减少思考。在 Phi-4-reasoning 模型上,GFPO 在具有挑战性的 STEM 和编码基准(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)上,将 GRPO 的长度膨胀降低了 46-71%,同时保持了准确性。优化每令牌奖励进一步将长度膨胀降低至 71-85%。我们还提出了自适应难度 GFPO,它根据实时难度估计动态地为更难的问题分配更多的训练资源,从而提高了计算效率和准确性之间的平衡,尤其是在难题上。GFPO 表明,增加训练时间计算可以直接转化为减少测试时间计算——这是一种简单而有效的权衡,用于高效推理。