⏶103
置信度即所需一切:语言模型的少样本强化学习微调
发表
由
Andrey Kuznetsov 提交

作者:
Pengyi Li,
Matvey Skripkin,
Alexander Zubrey,
Andrey Kuznetsov,
Ivan Oseledets


摘要
大型语言模型(LLM)擅长推理,但后期训练对于使其行为与任务目标保持一致仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了通过自我置信度进行强化学习(RLSC)的方法,该方法利用模型自身的置信度作为奖励信号——从而无需标签、偏好模型或奖励工程。将RLSC应用于Qwen2.5-Math-7B,每道题仅使用16个样本,训练10或20步,结果RLSC在AIME2024上将准确率提高了+13.4%,在MATH500上提高了+21.2%,在Minerva Math上提高了+21.7%,在Olympiadbench上提高了+20.8%,在AMC23上提高了+9.7%。RLSC为推理模型提供了一种简单、可扩展的后期训练方法,仅需要少量样本和无标签监督。

评论
论文作者
您好,感谢您提出问题!!
1) 我们的方法与您提到的工作在置信度定义上存在根本性差异。您提到的方法与现有方法(https://arxiv.org/abs/2505.20282)类似,倾向于将置信度基于对下一个Token的预测。而我们的定义则着眼于整个响应的置信度。我们受到了TTRL(https://arxiv.org/pdf/2504.16084)的启发,其理论核心在于改变模型答案的分布。然而,TTRL需要复杂地构建伪标签才能实现这一点。相比之下,我们提出了一种简单而有效的方法,它同样实现了答案数据分布的调整,但无需繁琐地构建伪标签。
2) 我们的方法基于严格的数学推理,并采用策略优化框架进行推导和实现。
大型语言模型(LLM)擅长推理,但后训练对于使其行为与任务目标对齐仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了通过自置信度强化学习(RLSC),它使用模型自身的置信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B,每个问题仅使用16个样本,并经过10或20个训练步骤,RLSC在AIME2024上将准确率提高了+13.4%,在MATH500上提高了+21.2%,在Minerva Math上提高了+21.7%,在Olympiadbench上提高了+20.8%,在AMC23上提高了+9.7%。RLSC为推理模型提供了一种简单、可扩展的后训练方法,仅需要少量样本和无标签监督。