⏶32
利用基于长度的自适应奖励塑形学习高效推理
发表
由
Wei Liu 提交
作者:
Wei Liu, Ruochen Zhou, Yiyun Deng,
Yuzhen Huang, Junteng Liu,
Yuntian Deng, Yizhe Zhang, Junxian He

摘要
大型推理模型 (LRMs) 通过强化学习 (RL) 在解决复杂问题方面展现出了卓越的能力,特别是通过生成冗长的推理轨迹。然而,这些扩展输出常常表现出大量的冗余,这限制了 LRM 的效率。在本文中,我们研究基于 RL 的方法来提高推理效率。具体来说,我们首先提出了一个统一框架,通过基于长度的奖励塑造视角来构建各种高效推理方法。基于这一视角,我们提出了一种新颖的基于长度的步进奖励塑造方法 (LASER),该方法使用阶跃函数作为奖励,并由目标长度控制。LASER 超越了先前的方法,在性能和效率之间实现了更优越的帕累托最优平衡。接下来,我们基于两个关键直觉进一步扩展了 LASER:(1) 模型的推理行为在训练过程中会演变,需要奖励规范也具有适应性和动态性;(2) 我们认为,基于长度的奖励塑造不应一概鼓励更短或更长的思维链 (CoT),而应具有难度感知能力,即对于简单的查询,应更严厉地惩罚过长的 CoT。这种方法有望促进快速和慢速思维的结合,从而带来更好的总体权衡。由此产生的方法被称为 LASER-D(动态和难度感知)。在 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 上的实验表明,我们的方法显著提高了推理性能和响应长度效率。例如,LASER-D 及其变体在 AIME2024 上实现了 +6.1 的改进,同时将 token 使用量减少了 63%。进一步分析表明,我们基于 RL 的压缩方法产生了更简洁的推理模式,减少了冗余的"自我反思"。资源可在 https://github.com/hkust-nlp/Laser 获取。
大型推理模型(LRMs)在通过强化学习(RL)解决复杂问题方面表现出卓越的能力,特别是通过生成长推理轨迹。然而,这些扩展的输出常常表现出大量的冗余,这限制了LRMs的效率。在本文中,我们研究基于RL的方法以提高推理效率。具体来说,我们首先提出了一个统一的框架,通过基于长度的奖励塑造来表述各种高效推理方法。基于这一视角,我们提出了一种新的基于长度的阶梯式奖励塑造方法(LASER),它使用一个阶梯函数作为奖励,由目标长度控制。LASER超越了先前的方法,在性能和效率之间实现了更优的帕累托最优平衡。接下来,我们基于两个关键直觉进一步扩展了LASER:(1)模型在训练过程中的推理行为会演变,需要奖励规范也具有适应性和动态性;(2)我们认为,基于长度的奖励塑造不应该统一鼓励更短或更长的思维链(CoT),而应该具有难度感知能力,即对于简单的查询,它应该更多地惩罚冗长的CoT。预计这种方法将促进快速思考和慢速思考的结合,从而实现更好的整体权衡。由此产生的方法被称为LASER-D(动态且难度感知)。在DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B上的实验表明,我们的方法显著提高了推理性能和响应长度效率。例如,LASER-D及其变体在AIME2024上实现了+6.1的改进,同时将token使用量减少了63%。进一步的分析表明,我们基于RL的压缩产生了更简洁的推理模式,减少了冗余的“自我反思”。资源可在 https://github.com/hkust-nlp/Laser 找到。