⏶37

LaSeR：基于最后一个词自我奖励的强化学习

10月16日发表

10月17日由 Wenkai Yang 提交

作者: Wenkai Yang, Weijie Liu, Ruobing Xie, Yiju Guo, Lulu Wu, Saiyong Yang, Yankai Lin

摘要

AI 生成总结

LaSeR 是一种强化学习算法，通过将最后一个标记的自我奖励分数与基于验证器的推理奖励对齐，增强了大型语言模型，提高了推理性能和推理时间缩放。

具有可验证奖励的强化学习（RLVR）最近已成为增强大型语言模型（LLM）推理能力的核心范式。为了解决测试时缺乏验证信号的问题，先前的研究将模型自验证能力的训练融入标准的 RLVR 过程中，从而在一个 LLM 中统一了推理和验证能力。然而，以往的做法需要 LLM 使用两个独立的提示模板顺序生成解决方案和自验证，这大大降低了效率。在本工作中，我们从理论上揭示了自验证的 RL 目标的闭式解可以简化为一个非常简单的形式：解决方案的真实推理奖励等于其最后一个 token 的自奖励分数，该分数是通过策略模型在解决方案的最后一个 token 上为任何预定 token 分配的下一个 token 的对数概率与预先计算的常数之间的差值计算得出的，并由 KL 系数进行缩放。基于这一见解，我们提出了 LaSeR（具有最后一个 token 自奖励的强化学习），这是一种算法，它只需将原始 RLVR 损失与 MSE 损失结合起来，该 MSE 损失将最后一个 token 的自奖励分数与基于验证器的推理奖励对齐，从而联合优化 LLM 的推理和自奖励能力。优化的自奖励分数可在训练和测试中使用，以提高模型性能。值得注意的是，我们的算法从生成后最后一个 token 的预测下一个 token 概率分布中得出这些分数，只产生了额外的微小成本，即一次额外的 token 推理。实验表明，我们的方法不仅提高了模型的推理性能，而且还赋予了它卓越的自奖励能力，从而提升了其推理时扩展性能。

查看 arXiv 页面查看 PDF

Wenkai Yang

论文作者

论文提交者

🔥🔥我们提出了 LaSeR，一种轻量级且有效的算法，通过在标准的 RLVR 目标中引入简单的 MSE 损失，以最小的额外成本同时优化 LLM 的推理和自奖励能力。优化的自奖励分数可以在训练和测试阶段作为辅助奖励信号，以提高模型性能。

Github 仓库：https://github.com/RUCBM/LaSeR

模型：https://huggingface.co/collections/Keven16/laser-68eddd427d58817e2b09373a

LaSeR：基于最后一个词自我奖励的强化学习

摘要

评论