⏶78
AdaptThink:推理模型可以学习何时思考
发表
由
Jiajie Zhang 提交
作者:
Jiajie Zhang,
Nianyi Lin, Lei Hou, Ling Feng,
Juanzi Li

摘要
近来,大型推理模型通过采用类人化的深度思考,在各种任务上取得了令人印象深刻的性能。然而,冗长的思考过程显著增加了推理开销,使效率成为关键瓶颈。在这项工作中,我们首先证明,对于相对简单的任务,促使推理模型跳过思考并直接生成最终解决方案的 NoThinking,在性能和效率方面都是更好的选择。受此启发,我们提出了 AdaptThink,这是一种新颖的强化学习 (RL) 算法,用于教会推理模型根据问题难度自适应地选择最优的思考模式。具体而言,AdaptThink 具有两个核心组成部分:(1) 一个约束优化目标,鼓励模型在保持整体性能的同时选择 NoThinking;(2) 一个重要性采样策略,在 on-policy 训练期间平衡 Thinking 和 NoThinking 样本,从而实现冷启动,并允许模型在整个训练过程中探索和利用这两种思考模式。我们的实验表明,AdaptThink 显著降低了推理成本,同时进一步提高了性能。值得注意的是,在三个数学数据集上,AdaptThink 将 DeepSeek-R1-Distill-Qwen-1.5B 的平均响应长度减少了 53%,并将其准确率提高了 2.4%,这突显了自适应思考模式选择在优化推理质量和效率之间的平衡方面的潜力。我们的代码和模型可在 https://github.com/THU-KEG/AdaptThink 获取。
代码: https://github.com/THU-KEG/AdaptThink
模型: https://huggingface.co/collections/THU-KEG/adaptthink-682a1059aa9f5102c4fa0470