⏶3
NOVER: 通过无需验证器的强化学习对语言模型进行激励训练
发表
由
weiliu 提交

作者:
Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He

摘要
DeepSeek R1-Zero 等近期进展凸显了激励训练的有效性,这是一种强化学习范式,它仅基于语言模型输出的最终答案部分计算奖励,从而鼓励生成中间推理步骤。然而,这些方法根本上依赖于外部验证器,这限制了其在数学和编程等容易获得此类验证器的领域的适用性。尽管奖励模型可以充当验证器,但它们需要高质量的标注数据且训练成本高昂。在这项工作中,我们提出了 NOVER,即无验证器强化学习 (NO-VERifier Reinforcement Learning),这是一个通用的强化学习框架,它只需要标准的监督微调数据,无需外部验证器。NOVER 使得激励训练适用于广泛的文本到文本任务,并且在性能上比从 DeepSeek R1 671B 等大型推理模型蒸馏出的同等规模模型高出 7.7%。此外,NOVER 的灵活性为优化大语言模型带来了新的可能性,例如逆向激励训练。
评论

论文作者
论文提交者
NOVER
- NOVER (NO-VERifier) 是一种新的后训练方法,将 RLVR 从数学和编码领域扩展到任何领域。它可以在任何 SFT 数据上执行 DeepSeek R1-Zero 类似的激励训练,无需验证器,也无需奖励模型。
- 它利用策略模型本身推导出基于推理困惑度的奖励建模代理模型,实现了稳定的训练并在各种任务上取得了优异的性能。
- 在论文中可以找到更多有趣的讨论,例如“代理的诅咒”、“推理模式的演变”以及“逆向激励训练”。