⏶12

DLER：正确执行长度惩罚 - 通过强化学习激励每个 Token 获得更多智能

10月16日发表

10月20日由 Min-Hung Chen 提交

作者: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov

摘要

AI 生成总结

DLER 是一种强化学习训练方法，通过解决优势估计、熵崩溃和稀疏奖励信号等挑战，改善了推理语言模型的准确性-效率权衡，从而实现了更短的输出和更好的测试时扩展性。

诸如 OpenAI-o1、DeepSeek-R1 和 Qwen 等推理语言模型通过扩展的思维链取得了强劲的性能，但往往会生成不必要的长输出。每 token 的最大智能（即准确率相对于响应长度的比值）仍然是一个悬而未决的问题。我们重新审视了强化学习（RL），并采用了最简单的长度惩罚——截断——，并表明准确率下降并非源于缺乏复杂的惩罚，而是源于 RL 优化不足。我们确定了三个关键挑战：(i) 优势估计中的大偏差，(ii) 熵坍塌，(iii) 稀疏奖励信号。我们通过“Doing Length pEnalty Right”（DLER）来解决这些问题，这是一种结合了批次奖励归一化、更高裁剪、动态采样和简单截断长度惩罚的训练方法。DLER 实现了最先进的准确率-效率权衡，将输出长度缩短了 70% 以上，同时超越了所有先前的基线准确率。它还提高了测试时扩展性：与 DeepSeek-R1-7B 相比，DLER-7B 以 28% 的更高准确率和更低的延迟并行生成多个简洁的响应。我们进一步引入了“Difficulty-Aware DLER”，它能够根据问题的难度自适应地收紧截断，以获得额外的效率提升。我们还提出了一种更新选择性合并方法，该方法在保留 DLER 模型简洁推理能力的同时，保持了基线准确率，这对于 RL 训练数据稀缺的场景非常有用。

查看 arXiv 页面查看 PDF

Min-Hung Chen

论文作者

论文提交者

像 OpenAI-o1、DeepSeek-R1 和 Qwen 这样的推理语言模型通过扩展思维链取得了优异的性能，但常常会生成不必要的长输出。最大化每 token 的智能——即准确性与响应长度的比值——仍然是一个开放性问题。我们重新审视强化学习（RL），采用最简单的长度惩罚——截断，并表明准确性下降并非源于缺乏复杂的惩罚，而是由于 RL 优化不足。我们确定了三个关键挑战：（i）优势估计中的大偏差，（ii）熵崩溃，以及（iii）稀疏奖励信号。我们通过“正确执行长度惩罚”（DLER）来解决这些问题，这是一种结合了批次奖励归一化、更高裁剪、动态采样和简单截断长度惩罚的训练方法。DLER 实现了最先进的准确性-效率权衡，将输出长度减少了 70% 以上，同时超过了所有先前的基线准确性。它还提高了测试时扩展性：与 DeepSeek-R1-7B 相比，DLER-7B 并行生成了多个简洁响应，准确性提高了 28%，延迟更低。我们进一步引入了“难度感知 DLER”，它自适应地收紧对较易问题的截断，以获得额外的效率提升。我们还提出了一种更新选择性合并方法，该方法在保留 DLER 模型简洁推理能力的同时，保持了基线准确性，这对于 RL 训练数据稀缺的场景很有用。

DLER：正确执行长度惩罚 - 通过强化学习激励每个 Token 获得更多智能

摘要

评论