⏶12
DLER:正确执行长度惩罚 - 通过强化学习激励每个 Token 获得更多智能
发表
由
Min-Hung Chen 提交
作者: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu,
Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
摘要
AI 生成总结
DLER 是一种强化学习训练方法,通过解决优势估计、熵崩溃和稀疏奖励信号等挑战,改善了推理语言模型的准确性-效率权衡,从而实现了更短的输出和更好的测试时扩展性。诸如 OpenAI-o1、DeepSeek-R1 和 Qwen 等推理语言模型通过扩展的思维链取得了强劲的性能,但往往会生成不必要的长输出。每 token 的最大智能(即准确率相对于响应长度的比值)仍然是一个悬而未决的问题。我们重新审视了强化学习(RL),并采用了最简单的长度惩罚——截断——,并表明准确率下降并非源于缺乏复杂的惩罚,而是源于 RL 优化不足。我们确定了三个关键挑战:(i) 优势估计中的大偏差,(ii) 熵坍塌,(iii) 稀疏奖励信号。我们通过“Doing Length pEnalty Right”(DLER)来解决这些问题,这是一种结合了批次奖励归一化、更高裁剪、动态采样和简单截断长度惩罚的训练方法。DLER 实现了最先进的准确率-效率权衡,将输出长度缩短了 70% 以上,同时超越了所有先前的基线准确率。它还提高了测试时扩展性:与 DeepSeek-R1-7B 相比,DLER-7B 以 28% 的更高准确率和更低的延迟并行生成多个简洁的响应。我们进一步引入了“Difficulty-Aware DLER”,它能够根据问题的难度自适应地收紧截断,以获得额外的效率提升。我们还提出了一种更新选择性合并方法,该方法在保留 DLER 模型简洁推理能力的同时,保持了基线准确率,这对于 RL 训练数据稀缺的场景非常有用。
像 OpenAI-o1、DeepSeek-R1 和 Qwen 这样的推理语言模型通过扩展思维链取得了优异的性能,但常常会生成不必要的长输出。最大化每 token 的智能——即准确性与响应长度的比值——仍然是一个开放性问题。我们重新审视强化学习(RL),采用最简单的长度惩罚——截断,并表明准确性下降并非源于缺乏复杂的惩罚,而是由于 RL 优化不足。我们确定了三个关键挑战:(i)优势估计中的大偏差,(ii)熵崩溃,以及(iii)稀疏奖励信号。我们通过“正确执行长度惩罚”(DLER)来解决这些问题,这是一种结合了批次奖励归一化、更高裁剪、动态采样和简单截断长度惩罚的训练方法。DLER 实现了最先进的准确性-效率权衡,将输出长度减少了 70% 以上,同时超过了所有先前的基线准确性。它还提高了测试时扩展性:与 DeepSeek-R1-7B 相比,DLER-7B 并行生成了多个简洁响应,准确性提高了 28%,延迟更低。我们进一步引入了“难度感知 DLER”,它自适应地收紧对较易问题的截断,以获得额外的效率提升。我们还提出了一种更新选择性合并方法,该方法在保留 DLER 模型简洁推理能力的同时,保持了基线准确性,这对于 RL 训练数据稀缺的场景很有用。