⏶11
更短但非更差:在数学 RLVR 中通过简单样本作为长度正则化器实现节俭推理
发表
由
Abdelaziz Bounhar 提交
作者:
Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis,
Guokan Shang
摘要
AI 生成总结
在 LLM 的 RLVR 管道中保留并提高中等难度问题的权重,可以在不明确施加长度惩罚的情况下减少输出的冗长程度。经过循序渐进推理训练的大型语言模型(LLM)往往变得过于冗长,增加了推理成本。标准的基于可验证奖励的强化学习(RLVR)流程会过滤掉“简单”问题以提高训练效率,使模型主要在需要更长推理链的更难问题上进行训练。这使得输出长度分布向上倾斜,导致模型将“思考更久”与“思考更好”混为一谈。在这项工作中,我们表明保留并适度增加中等难度问题的权重可以作为一种隐式长度正则化器。让模型接触可解决的短链任务可以约束其输出分布并防止失控的冗长。结果是“免费的紧急简洁性”:模型学会解决更难的问题而不会增加输出长度,尽管没有任何明确的长度惩罚。使用这种方法在 Qwen3-4B-Thinking-2507(16k token 限制)上进行的 RLVR 实验在实现基线 pass@1 AIME25 准确率的同时,生成的解决方案平均短近两倍。代码可在 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub} 上获取,数据集和模型可在 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face} 上获取。
TL;DR:🤖更快。更智能。更节俭。而且更好!
我们的开源RL训练数学模型在不损失准确性(实际上在Omni-Hard等一些困难推理基准上有所改进)的情况下,将冗余度减少了约2倍,表明简单问题可以在RL过程中隐式地规范长度。
代码可在Github上公开获取。
模型和数据可在Hugging Face上公开获取。