⏶26
无需外部奖励的学习推理
发表
由
Xuandong Zhao 提交

作者:
Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song

摘要
通过使用可验证奖励的强化学习(RLVR)训练大型语言模型(LLM)进行复杂推理是有效的,但受限于对昂贵且领域特定监督的依赖。我们探索了基于内部反馈的强化学习(RLIF),这是一个使LLM能够从内部信号中学习而无需外部奖励或标记数据的框架。我们提出了Intuitor,这是一种RLIF方法,它使用模型自身的置信度(称为自我确定性)作为其唯一的奖励信号。Intuitor用自我确定性得分取代了组相对策略优化(GRPO)中的外部奖励,从而实现了完全无监督学习。实验表明,Intuitor在数学基准上与GRPO的性能相当,同时在代码生成等领域外任务上实现了卓越的泛化能力,无需黄金标准解决方案或测试用例。我们的研究结果表明,模型内部信号可以推动跨领域的有效学习,为自主人工智能系统提供了可验证奖励不可用时的可扩展替代方案。代码可在以下链接获取:https://github.com/sunblaze-ucb/Intuitor。
代码可在 https://github.com/sunblaze-ucb/Intuitor 获取