RLFR:通过流环境将强化学习扩展到大语言模型(LLMs)

发表
SII-Jhao ZhangSII-Jhao Zhang 提交
作者: SII-Jhao ZhangJinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang

摘要

AI 生成总结
RLFR 使用从潜在空间导出的流奖励来改进具有可验证奖励的强化学习,展示了可靠的奖励塑造和高效的上下文理解。
具有可验证奖励的强化学习(RLVR)最近已成为提高大型语言模型(LLM)推理能力的有前途的框架。然而,通过二元验证优化的策略容易忽略推理轨迹中潜在的有价值探索。考虑到黄金过程奖励模型(PRM)的高昂标注成本,最近的工作试图使用辅助信号来塑造过程令牌的奖励,包括从logit空间收集的熵和似然。在这项工作中,我们提供了一个新颖的视角,即使用来自潜在空间的流奖励来塑造RLVR,并提出RLFR。在RLFR中,模型潜力的流场是从离策略高质量数据和在策略拒绝采样数据中构建的,并将策略潜力在其内的速度偏差量化,作为奖励信号。RLFR首次证明了成熟的流场可以作为奖励信号收集的良好环境,突出了表达性潜在空间尚未得到充分探索。此外,RLFR能够压缩任何离策略专家数据作为构成奖励信号的参考,并且我们表明,它利用了隐藏状态中压缩的有效上下文依赖性,而不是用于上下文理解的单个令牌级指示。在语言和多模态推理基准上的实验证明了流奖励的可靠性,并提出了一个有前途的辅助信号奖励塑造范式。
查看 arXiv 页面查看 PDF

评论