⏶23
训练长,思考短:用于高效推理的课程学习
发表
由
Hasan Abed Al Kader Hammoud 提交
作者:
Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
摘要
最近在增强大型语言模型 (LLM) 推理能力方面的工作引入了显式长度控制,作为在保持准确性的同时限制计算成本的一种手段。然而,现有方法依赖于固定长度的训练预算,这没有利用学习过程中从探索到压缩的自然进展。在这项工作中,我们提出了一种使用组相对策略优化 (GRPO) 进行长度控制推理的课程学习策略。我们的方法从宽松的令牌预算开始,并在训练过程中逐渐收紧,鼓励模型首先发现有效的解决方案策略,然后将其提炼成更简洁的推理轨迹。我们用一个奖励函数增强了 GRPO,该函数平衡了三个信号:任务正确性(通过验证器反馈)、长度效率和格式遵从性(通过结构化标签)。在 GSM8K、MATH500、SVAMP、College Math 和 GSM+ 上的实验表明,基于课程的训练在相同的最终预算下始终优于固定预算基线,实现了更高的准确性和显著提高的令牌效率。我们进一步分析了奖励权重和衰减调度设计的影响,表明渐进式约束是训练高效推理模型的强大归纳偏置。我们的代码和检查点已发布在:https://github.com/hammoudhasan/curriculum_grpo。

最近关于增强大型语言模型 (LLM) 推理能力的工作引入了显式长度控制作为在保持准确性的同时限制计算成本的一种手段。然而,现有方法依赖于固定长度的训练预算,这没有利用学习过程中从探索到压缩的自然进程。在这项工作中,我们提出了一种使用组相对策略优化 (GRPO) 进行长度控制推理的课程学习策略。我们的方法从宽松的令牌预算开始,并在训练过程中逐渐收紧,鼓励模型首先发现有效的解决方案策略,然后将其提炼成更简洁的推理轨迹。我们用平衡三个信号的奖励函数增强 GRPO:任务正确性(通过验证器反馈)、长度效率和格式遵守(通过结构标签)。在 GSM8K、MATH500、SVAMP、College Math 和 GSM+ 上的实验表明,在相同的最终预算下,基于课程的训练始终优于固定预算基线,实现了更高的准确性和显著改善的令牌效率。我们进一步消除了奖励权重和衰减计划设计的影响,表明渐进式约束是训练高效推理模型的强大归纳偏差。我们的代码和检查点已发布在:https://github.com/hammoudhasan/curriculum_grpo。