⏶39
Klear-Reasoner:通过梯度保留剪裁策略优化提升推理能力
发表
由
suu 提交

作者:
Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu,
Guanting Dong, Jiaming Huang, Wenping Hu, Guorui Zhou


摘要
我们提出了Klear-Reasoner,一个具有长推理能力、在问题解决过程中展现出谨慎思考的模型,并在多个基准测试中取得了出色表现。尽管当前社区中已经有许多与推理模型相关的优秀工作,但由于训练细节披露不完整,重现高性能推理模型仍然存在许多问题。本报告深入分析了推理模型,涵盖了从数据准备和长思维链监督微调(long CoT SFT)到强化学习(RL)的整个后训练工作流程,并对每个实验组件进行了详细的消融研究。对于SFT数据,我们的实验表明,少量高质量数据源比大量多样化数据源更有效,并且困难样本无需精度过滤也能取得更好结果。此外,我们研究了当前RL中剪裁机制的两个关键问题:剪裁抑制了关键的探索信号,并忽略了次优轨迹。为了解决这些挑战,我们提出了梯度保留剪裁策略优化(GPPO),它温和地反向传播来自剪裁令牌的梯度。GPPO不仅增强了模型的探索能力,还提高了其从负样本中学习的效率。Klear-Reasoner在数学和编程方面展现出卓越的推理能力,在AIME 2024中得分90.5%,在AIME 2025中得分83.2%,在LiveCodeBench V5中得分66.0%,在LiveCodeBench V6中得分58.1%。
我们推出了Klear-Reasoner,这是一个具有长推理能力的模型,在解决问题时表现出仔细的思考,在多个基准测试中取得了出色的性能。尽管当前社区中已经有许多与推理模型相关的优秀工作,但由于训练细节披露不完整,复制高性能推理模型仍然存在许多问题。本报告对推理模型进行了深入分析,涵盖了从数据准备和长CoT监督微调(long CoT SFT)到强化学习(RL)的整个后训练流程,并对每个实验组件进行了详细的消融研究。对于SFT数据,我们的实验表明,少量高质量的数据源比大量多样化数据源更有效,并且困难样本在没有准确性过滤的情况下也能获得更好的结果。此外,我们调查了当前RL中剪裁机制的两个关键问题:剪裁抑制了关键的探索信号,并忽略了次优轨迹。为了解决这些挑战,我们提出了梯度保留剪裁策略优化(GPPO),它温和地反向传播剪裁令牌的梯度。GPPO不仅增强了模型的探索能力,还提高了其从负样本中学习的效率。Klear-Reasoner在数学和编程方面表现出卓越的推理能力,在AIME 2024中得分90.5%,AIME 2025中得分83.2%,LiveCodeBench V5中得分66.0%,LiveCodeBench V6中得分58.1%。