⏶80
TTRL:测试时强化学习
发表
由
Kaiyan Zhang 提交
作者:
Yuxin Zuo,
Kaiyan Zhang, Shang Qu,
Li Sheng,
Xuekai Zhu,
Biqing Qi,
Youbang Sun,
Ganqu Cui,
Ning Ding, Bowen Zhou

摘要
本文探讨了在没有明确标签的数据上进行大型语言模型(LLMs)推理任务的强化学习(RL)。该问题的核心挑战在于推理过程中在无法获取真实信息的情况下进行奖励估计。尽管这种情况看似难以捉摸,但我们发现,测试时规模化(Test-Time Scaling, TTS)中的常用做法,如多数投票,能够产生出乎意料的有效奖励,足以驱动RL训练。在这项工作中,我们引入了测试时强化学习(Test-Time Reinforcement Learning, TTRL),这是一种利用无标签数据通过RL训练LLM的新颖方法。TTRL利用预训练模型中的先验知识,使LLM能够自我演化。我们的实验表明,TTRL 在各种任务和模型上持续提升性能。值得注意的是,TTRL 仅使用无标签的测试数据,就在 AIME 2024 数据集上将 Qwen-2.5-Math-7B 的 pass@1 性能提升了约 159%。此外,尽管 TTRL 仅通过 Maj@N 指标进行监督,但它表现出持续超越初始模型上限的性能,并接近直接在带有真实标签的测试数据上训练的模型性能。我们的实验结果验证了 TTRL 在各种任务上的普遍有效性,并突出了 TTRL 在更广泛任务和领域中的潜力。GitHub: https://github.com/PRIME-RL/TTRL
评论
如果我没理解错的话,将多数投票作为奖励的想法,无论是用于选择接受和拒绝的回复(见我们的 ScPO 论文:https://arxiv.org/abs/2411.04109)还是用于在线强化学习算法(如本文所示),都非常相似,并且是我们工作的重要成果之一。
本文研究了在没有显式标签数据上对大语言模型 (LLMs) 进行推理任务的强化学习 (RL)。问题的核心挑战在于在推理阶段估计奖励,而无法访问真实信息。虽然这种设置看起来难以捉摸,但我们发现测试时缩放 (Test-Time Scaling, TTS) 中的常见实践,例如多数投票,产生了出人意料的有效奖励,适用于驱动 RL 训练。GitHub: https://github.com/PRIME-RL/TTRL