⏶37
LaSeR:基于最后一个词自我奖励的强化学习
发表
由
Wenkai Yang 提交
作者:
Wenkai Yang, Weijie Liu, Ruobing Xie, Yiju Guo, Lulu Wu, Saiyong Yang, Yankai Lin
摘要
AI 生成总结
LaSeR 是一种强化学习算法,通过将最后一个标记的自我奖励分数与基于验证器的推理奖励对齐,增强了大型语言模型,提高了推理性能和推理时间缩放。具有可验证奖励的强化学习(RLVR)最近已成为增强大型语言模型(LLM)推理能力的核心范式。为了解决测试时缺乏验证信号的问题,先前的研究将模型自验证能力的训练融入标准的 RLVR 过程中,从而在一个 LLM 中统一了推理和验证能力。然而,以往的做法需要 LLM 使用两个独立的提示模板顺序生成解决方案和自验证,这大大降低了效率。在本工作中,我们从理论上揭示了自验证的 RL 目标的闭式解可以简化为一个非常简单的形式:解决方案的真实推理奖励等于其最后一个 token 的自奖励分数,该分数是通过策略模型在解决方案的最后一个 token 上为任何预定 token 分配的下一个 token 的对数概率与预先计算的常数之间的差值计算得出的,并由 KL 系数进行缩放。基于这一见解,我们提出了 LaSeR(具有最后一个 token 自奖励的强化学习),这是一种算法,它只需将原始 RLVR 损失与 MSE 损失结合起来,该 MSE 损失将最后一个 token 的自奖励分数与基于验证器的推理奖励对齐,从而联合优化 LLM 的推理和自奖励能力。优化的自奖励分数可在训练和测试中使用,以提高模型性能。值得注意的是,我们的算法从生成后最后一个 token 的预测下一个 token 概率分布中得出这些分数,只产生了额外的微小成本,即一次额外的 token 推理。实验表明,我们的方法不仅提高了模型的推理性能,而且还赋予了它卓越的自奖励能力,从而提升了其推理时扩展性能。
🔥🔥我们提出了 LaSeR,一种轻量级且有效的算法,通过在标准的 RLVR 目标中引入简单的 MSE 损失,以最小的额外成本同时优化 LLM 的推理和自奖励能力。优化的自奖励分数可以在训练和测试阶段作为辅助奖励信号,以提高模型性能。
Github 仓库:https://github.com/RUCBM/LaSeR
模型:https://huggingface.co/collections/Keven16/laser-68eddd427d58817e2b09373a