RL Tango:协同增强生成器和验证器用于语言推理

发表
Kaiwen ZhaKaiwen Zha 提交
作者: Kaiwen ZhaKaiwen Zha, Zhengqi Gao, Maohao Shen, Zhang-Wei Hong, Duane S. Boning, Dina Katabi

摘要

强化学习(RL)最近已成为一种增强大型语言模型(LLM)推理能力的引人注目的方法,其中LLM生成器充当由验证器(奖励模型)引导的策略。然而,目前LLM的RL后训练方法通常使用固定(基于规则或冻结的预训练)或通过有监督微调(SFT)进行判别式训练的验证器。这种设计容易受到奖励欺骗(reward hacking)的影响,并且在其训练分布之外泛化能力较差。为了克服这些限制,我们提出了Tango,这是一个新颖的框架,它利用RL以交织的方式同时训练LLM生成器和验证器。Tango的一个核心创新之处在于其生成式的、过程级的LLM验证器,它通过RL进行训练,并与生成器协同进化。重要的是,验证器仅基于结果级的验证正确性奖励进行训练,无需显式的过程级标注。这种生成式RL训练的验证器与确定性或SFT训练的验证器相比,展现出更高的鲁棒性和更强的泛化能力,从而促进了与生成器的有效相互强化。大量实验表明,Tango的两个组件在7B/8B规模的模型中都达到了最先进的结果:生成器在五个竞赛级数学基准和四个具有挑战性的域外推理任务上取得了同类最佳表现,而验证器在ProcessBench数据集上表现领先。值得注意的是,这两个组件在最困难的数学推理问题上都表现出特别显著的改进。代码位于:https://github.com/kaiwenzha/rl-tango
查看 arXiv 页面查看 PDF

评论

Kaiwen ZhaKaiwen Zha
论文作者
论文提交者

我们引入了 Tango,这是一个新颖有效的协同进化框架,它利用强化学习(RL)以交错的方式并发训练一个大型语言模型生成器和一个大型语言模型验证器,以实现大型语言模型推理。