TTRL:测试时强化学习

发表
Kaiyan ZhangKaiyan Zhang 提交
作者: Yuxin ZuoYuxin Zuo, Kaiyan ZhangKaiyan Zhang, Shang Qu, li shengLi Sheng, zhuXuekai Zhu, Biqing QiBiqing Qi, Youbang SunYoubang Sun, Ganqu CuiGanqu Cui, Ning DingNing Ding, Bowen Zhou

摘要

本文探讨了在没有明确标签的数据上进行大型语言模型(LLMs)推理任务的强化学习(RL)。该问题的核心挑战在于推理过程中在无法获取真实信息的情况下进行奖励估计。尽管这种情况看似难以捉摸,但我们发现,测试时规模化(Test-Time Scaling, TTS)中的常用做法,如多数投票,能够产生出乎意料的有效奖励,足以驱动RL训练。在这项工作中,我们引入了测试时强化学习(Test-Time Reinforcement Learning, TTRL),这是一种利用无标签数据通过RL训练LLM的新颖方法。TTRL利用预训练模型中的先验知识,使LLM能够自我演化。我们的实验表明,TTRL 在各种任务和模型上持续提升性能。值得注意的是,TTRL 仅使用无标签的测试数据,就在 AIME 2024 数据集上将 Qwen-2.5-Math-7B 的 pass@1 性能提升了约 159%。此外,尽管 TTRL 仅通过 Maj@N 指标进行监督,但它表现出持续超越初始模型上限的性能,并接近直接在带有真实标签的测试数据上训练的模型性能。我们的实验结果验证了 TTRL 在各种任务上的普遍有效性,并突出了 TTRL 在更广泛任务和领域中的潜力。GitHub: https://github.com/PRIME-RL/TTRL
查看 arXiv 页面查看 PDF

评论

Kaiyan ZhangKaiyan Zhang
论文作者
论文提交者

本文研究了在没有显式标签数据上对大语言模型 (LLMs) 进行推理任务的强化学习 (RL)。问题的核心挑战在于在推理阶段估计奖励,而无法访问真实信息。虽然这种设置看起来难以捉摸,但我们发现测试时缩放 (Test-Time Scaling, TTS) 中的常见实践,例如多数投票,产生了出人意料的有效奖励,适用于驱动 RL 训练。GitHub: https://github.com/PRIME-RL/TTRL

Archiki PrasadArchiki Prasad

如果我没理解错的话,将多数投票作为奖励的想法,无论是用于选择接受和拒绝的回复(见我们的 ScPO 论文:https://arxiv.org/abs/2411.04109)还是用于在线强化学习算法(如本文所示),都非常相似,并且是我们工作的重要成果之一。

Yuxin ZuoYuxin Zuo
论文作者

感谢您指出这一点。对于在我们的文献综述中遗漏了您的论文,我们深表歉意。仔细阅读后,我们承认我们方法之间的相似之处。主要区别在于多数投票的应用方式——是用于构建 DPO 的正负样本,还是在强化学习(RL)的背景下用于估计奖励,以及测试时的情况。我们将很快更新我们的论文,在正文内容中引用并讨论您的工作,并计划实现偏好优化类方法以进一步研究它们的行为。