⏶6
基于规则和基于模型的验证器在数学推理中的陷阱——一项案例研究
发表
由
Yuzhen Huang 提交
作者:
Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He
摘要
可信赖的验证器对于带有可验证奖励的强化学习(RLVR)的成功至关重要,RLVR 是 DeepSeek-R1 等各种大型推理模型背后的核心方法论。在数学推理等复杂领域,基于规则的验证器在先前的工作中被广泛用于训练强大的推理模型。然而,这些验证器的可靠性及其对强化学习训练过程的影响仍然知之甚少。在这项工作中,我们以数学推理为例,在静态评估和强化学习训练场景下对各种验证器进行了全面分析。首先,我们发现当前的开源基于规则的验证器在多个常用数学数据集中,常常无法识别以不同格式呈现的等效答案,导致不可忽略的假阴性率。这一局限性对强化学习训练性能产生不利影响,并且随着策略模型变得更强,这一问题更加突出。随后,我们研究了基于模型的验证器作为解决这些局限性的潜在方案。虽然静态评估表明基于模型的验证器实现了显著更高的验证准确性,但进一步的分析和强化学习训练结果表明它们极易受到攻击,即它们会将响应中的某些模式错误地归类为正确(即假阳性)。这种漏洞在策略模型优化过程中被利用,导致奖励被人为夸大。我们的发现强调了基于规则和基于模型的验证器固有的独特风险,旨在为开发更鲁棒的强化学习奖励系统提供有价值的见解。
主要发现:
基于规则的验证器会遗漏正确答案,尤其是在以不同格式呈现时。
基于模型的验证器容易受到奖励欺骗的影响,这会损害强化学习的结果。
一项探测研究表明,大多数基于模型的验证器,特别是生成式验证器(例如使用思维链推理的验证器),极易受到对抗性攻击。