⏶22
通过监督学习框架实现 RLVR 的隐式 Actor-Critic 耦合
发表
由
Jiaming Li 提交
作者:
Jiaming Li,
Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang

摘要
近期的可验证奖励强化学习(RLVR)取得了长足的进步,使大型语言模型(LLMs)能够胜任数学和编程等具有挑战性的推理任务。RLVR 利用可验证的结果奖励来指导策略优化,使 LLMs 能够以一种有依据且可靠的方式逐步提高输出质量。尽管前景广阔,但 RLVR 范式也带来了重大挑战,因为现有方法通常存在奖励信号稀疏和策略梯度更新不稳定的问题,尤其是在基于 RL 的方法中。为了应对这些挑战,我们提出了 PACS,一个新颖的 RLVR 框架,它通过监督学习框架实现了隐式的 Actor Critic 耦合。通过将结果奖励视为可预测的标签,我们将 RLVR 问题重新定义为基于评分函数(由策略模型参数化)的监督学习任务,并使用交叉熵损失进行优化。详细的梯度分析表明,这种监督式表述内在地恢复了经典的策略梯度更新,同时隐式地耦合了 actor 和 critic 的角色,从而实现了更稳定、更高效的训练。在具有挑战性的数学推理任务上的基准测试表明,PACS 的性能优于 PPO 和 GRPO 等强大的 RLVR 基线,实现了卓越的推理性能。例如,PACS 在 AIME 2025 上的 pass@256 达到了 59.78%,分别比 PPO 和 GRPO 提高了 13.32 和 14.36 个百分点。这个简单而强大的框架为具有可验证奖励的 LLM 后续训练提供了一条有前途的途径。我们的代码和数据可作为开源项目在 https://github.com/ritzz-ai/PACS 上获取。
近年来,具有可验证奖励(RLVR)的强化学习在数学和编程等具有挑战性的推理任务上,已经使大型语言模型(LLM)能够胜任。RLVR利用可验证的成果奖励来指导策略优化,使LLM能够以一种扎实且可靠的方式逐步提高输出质量。尽管前景广阔,但RLVR范式带来了严峻的挑战,因为现有方法通常受稀疏奖励信号和不稳定的策略梯度更新的影响,尤其是在基于RL的方法中。为了应对这些挑战,我们提出了 PACS,一个新颖的RLVR框架,该框架通过 有监督 学习框架实现了 隐式 Actor Critic 耦合。通过将成果奖励视为可预测的标签,我们将RLVR问题重新表述为一个在由策略模型参数化的得分函数上的有监督学习任务,并使用交叉熵损失进行优化。详细的梯度分析表明,这种有监督的表述天然地恢复了经典的策略梯度更新,同时隐式地耦合了Actor和Critic的角色,从而实现了更稳定和更有效的训练。在具有挑战性的数学推理任务上的基准测试中,PACS的表现优于PPO和GRPO等强大的RLVR基线,取得了卓越的推理性能。例如,PACS在AIME 2025上实现了59.78%的pass@256,比PPO和GRPO分别提高了13.32和14.36个百分点。这个简单而强大的框架为经过可验证奖励进行事后训练的LLM提供了一个有前景的途径。我们的代码和数据可在GitHub上开源获取:https://github.com/ritzz-ai/PACS。