Pass@k 训练:用于自适应平衡大型推理模型的探索与利用

发表
Zhipeng ChenZhipeng Chen 提交
作者: Zhipeng ChenZhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi

摘要

采用可验证奖励的强化学习(RLVR)通常使用 Pass@1 作为奖励,但在平衡探索与利用方面面临问题,导致策略倾向于保守行动,收敛到局部最优解。因此,确定一个合适的奖励指标至关重要。关于先前的工作,尽管 Pass@k 已被用于评估,但其与大语言模型在 RLVR 中探索能力的联系在很大程度上被忽视了。为了研究这一点,我们首先使用 Pass@k 作为奖励来训练策略模型(即 Pass@k 训练),并观察到其探索能力的提升。接着,我们推导出了 Pass@k 训练优势函数的解析解,从而实现了一个高效且有效的过程。在此基础上,我们的分析揭示了探索和利用并非天生矛盾的目标,而是可以相互促进的。此外,通过解析推导的 Pass@k 训练本质上涉及直接设计优势函数。受此启发,我们初步探索了为 RLVR 设计优势函数,结果显示出良好的前景,并指明了一个潜在的未来研究方向。
查看 arXiv 页面查看 PDF

评论

Zhipeng ChenZhipeng Chen
论文作者
论文提交者

分享我们关于 RLVR 的最新研究。只需修改几行代码,即可有效激活 LRM 的探索能力,表现优于 GPT-4o 和 Claude-3.7。