先学走再学跑!通过强化学习实现简洁的大型语言模型推理

发表
Mingyang SongMingyang Song 提交
作者: Mingyang SongMingyang Song, Mao Zheng

摘要

随着测试时缩放成为大型语言模型(LLMs)发展的关键研究前沿,当前和先进的训练后方法越来越关注延长长链式思维(CoT)响应的生成长度,以增强推理能力,使其达到类似 DeepSeek R1 的性能。然而,最近的研究揭示了最先进推理模型中存在一种持续的过度思考现象,表现为长 CoT 响应中过度的冗余或重复的思维模式。为了解决这个问题,本文提出了一种简单有效的两阶段强化学习框架,用于实现 LLMs 的简洁推理,命名为 ConciseR。具体而言,第一阶段使用更多训练步骤,旨在通过带有 clip-higher 和动态采样组件的 Group Relative Policy Optimization (GRPO++) 来激励模型的推理能力;第二阶段使用较少训练步骤,通过 Length-aware Group Relative Policy Optimization (L-GRPO) 显式强制执行简洁性并提高效率。重要的是,ConciseR 遵循“先学会走,再学会跑”的原则,只有当样本的所有 rollout 都正确时才优化响应长度。大量的实验结果表明,我们的 ConciseR 模型生成更简洁的 CoT 推理响应,在 AIME 2024、MATH-500、AMC 2023、Minerva 和 Olympiad 基准测试中,其性能优于最近的最先进的零 RL 范式推理模型。
查看 arXiv 页面查看 PDF

评论

Mingyang SongMingyang Song
论文作者
论文提交者

conciser_preview.png