置信度即所需一切:语言模型的少样本强化学习微调

发表
Andrey KuznetsovAndrey Kuznetsov 提交
作者: Li PengyiPengyi Li, Matvey SkripkinMatvey Skripkin, AlexanderAlexander Zubrey, Andrey KuznetsovAndrey Kuznetsov, Ivan OseledetsIvan Oseledets

摘要

大型语言模型(LLM)擅长推理,但后期训练对于使其行为与任务目标保持一致仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了通过自我置信度进行强化学习(RLSC)的方法,该方法利用模型自身的置信度作为奖励信号——从而无需标签、偏好模型或奖励工程。将RLSC应用于Qwen2.5-Math-7B,每道题仅使用16个样本,训练10或20步,结果RLSC在AIME2024上将准确率提高了+13.4%,在MATH500上提高了+21.2%,在Minerva Math上提高了+21.7%,在Olympiadbench上提高了+20.8%,在AMC23上提高了+9.7%。RLSC为推理模型提供了一种简单、可扩展的后期训练方法,仅需要少量样本和无标签监督。
查看 arXiv 页面查看 PDF
置信度即所需一切:语言模型的少样本强化学习微调

评论

Andrey KuznetsovAndrey Kuznetsov
论文作者
论文提交者

大型语言模型(LLM)擅长推理,但后训练对于使其行为与任务目标对齐仍然至关重要。现有的强化学习(RL)方法通常依赖于昂贵的人工标注或外部奖励模型。我们提出了通过自置信度强化学习(RLSC),它使用模型自身的置信度作为奖励信号,从而消除了对标签、偏好模型或奖励工程的需求。将RLSC应用于Qwen2.5-Math-7B,每个问题仅使用16个样本,并经过10或20个训练步骤,RLSC在AIME2024上将准确率提高了+13.4%,在MATH500上提高了+21.2%,在Minerva Math上提高了+21.7%,在Olympiadbench上提高了+20.8%,在AMC23上提高了+9.7%。RLSC为推理模型提供了一种简单、可扩展的后训练方法,仅需要少量样本和无标签监督。

Yury PanikovYury Panikov

谢谢,这个强化学习(RL)方法很有趣

Omar HammadOmar Hammad

智能

Lai WeiLai Wei

https://arxiv.org/pdf/2505.19590 有何不同?

Rameez ChatniRameez Chatni

你好 Lipengyi,

卓越的工作!使用模型自身的概率分布来生成整个响应,并从中创建一个置信度指标,然后用它来更新模型权重!如果我理解有误,请指正。

如果我理解正确,自置信度是一个损失函数。基于此,我能否使用相同的概念来通过 LORA 进行训练,而不是更新所有权重?很想听听你对这种方法与完全微调的看法。

Alisher AmantayAlisher Amantay

@mchatni 是的,但性能预计会比使用完整权重训练时差。

Li PengyiLi Pengyi
论文作者

嗨,谢谢你的问题。

我认为可以使用 LoRA 进行微调,但与全参数微调相比,效果肯定不会很强。

Elias HossainElias Hossain

你好,你们有计划分享代码库吗?那会很有帮助的。

Li PengyiLi Pengyi
论文作者

谢谢您的关心。

我想我们将会分享,但不是现在,我们还有额外的实验分析!

Alexander BolesAlexander Boles

很好

Pro CreationsPro Creations

如何防止过高置信度?

Andrey KuznetsovAndrey Kuznetsov
论文作者
论文提交者

你所说的过度自信是什么意思?是针对特定基准的偏见吗?

Pro CreationsPro Creations

@kuznetsoffandrey 不,我指的是认知上的过度自信,即模型对错误的答案表现出高度确信。你的方法通过最大化自信分数来明确训练模型使其更自信,但没有机制来确保增加的自信与正确性相关。

这在有客观答案的数学问题上表现良好,但当应用于以下情况时会怎样:

  • 模糊问题,在这种情况下不确定性是合适的

  • 训练分布之外的领域

  • “我不知道”是正确答案的问题

你的结果显示模型给出了“更短、更自信的答案”,但没有准确性的自信是危险的。你如何保持校准的不确定性?你如何防止模型仅仅因为训练使其倾向于果断而自信地陈述错误信息?

Andrey KuznetsovAndrey Kuznetsov
论文作者
论文提交者

就发展我们的初步想法而言,这是一个有趣的观点,因为我们最初的设想是使用内部知识来替代定制的可量化奖励。不确定性量化是一个重要的点,计算特定基准上的“不确定性感知准确度”等指标将有助于评估RLSC的效果。我们将深入思考这个问题,并针对UQ、OOD等任务进行额外的实验。感谢您的指点。

Li PengyiLi Pengyi
论文作者

嗨,谢谢你的问题!

请继续关注我们后续的更新(我们会弄清楚的),但这里“过度自信”的定义更为抽象;过度自信不一定会导致模型出错,也不一定会导致模型正确。

但对于一种无监督信号训练方法来说,它已经完成了任务。

Li PengyiLi Pengyi
论文作者
此评论已隐藏。
WANG QIWANG QI

这是一种非常巧妙的方法。太棒了!