⏶26
无需验证器强化通用推理
发表
由
Zichen 提交
作者:
Xiangxin Zhou,
Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
摘要
近期,训练大语言模型 (LLMs) 的范式转向使用 DeepSeek-R1-Zero 风格的强化学习 (RL) 对可验证的奖励进行训练,这在代码和数学推理方面取得了令人瞩目的进展。然而,这种方法仅限于可以通过基于规则的答案验证的任务,并且不能自然地扩展到化学、医疗保健、工程、法律、生物学、商业和经济学等现实世界领域。当前实际的权宜之计是使用另一个 LLM 作为基于模型的验证器;然而,这引入了一些问题,例如依赖于强大的验证器 LLM、容易受到奖励欺骗(reward hacking)的影响以及训练期间在内存中维护验证器模型的实际负担。为了解决这个问题并将 DeepSeek-R1-Zero 风格的训练扩展到通用推理领域,我们提出了一种无验证器方法 (VeriFree),该方法绕过答案验证,转而使用 RL 直接最大化生成参考答案的概率。我们将 VeriFree 与基于验证器的方法进行了比较,并证明,除了其显著的实际优势和降低的计算需求外,VeriFree 在 MMLU-Pro、GPQA、SuperGPQA 和数学相关基准上的广泛评估中,与基于验证器的方法持平甚至超越了它们。此外,我们从多个角度对该方法进行了深入分析:作为在统一模型中优雅地集成了策略和隐式验证器的训练,以及作为一种变分优化方法。代码可在以下链接获取:https://github.com/sail-sg/VeriFree。
我们提高了 LLM 的通用推理能力,而不依赖于验证器。