⏶13
RefCritic:使用细化反馈训练长链式思维批判模型
发表
由
xianghao 提交
作者:
Qiaoyu Tang, Hao Xiang,
Le Yu, Bowen Yu,
Hongyu Lin,
Yaojie Lu,
Xianpei Han, Le Sun,
Junyang Lin


摘要
随着大型语言模型(LLM)的快速发展,开发用于精确指导的有效评论模块变得至关重要但又充满挑战。在本文中,我们首先证明,用于构建评论模块的监督微调(在当前解决方案中广泛采用)未能真正提升模型的评论能力,反而产生了缺乏反思和验证的肤浅评论。为了释放前所未有的评论能力,我们提出了RefCritic,一个基于强化学习的长链思维评论模块,它具有双重基于规则的奖励:(1)实例级的解决方案判断正确性,以及(2)基于评论的策略模型精炼准确性,旨在生成高质量的评估和可操作的反馈,有效指导模型精炼。我们在Qwen2.5-14B-Instruct和DeepSeek-R1-Distill-Qwen-14B上对RefCritic进行了评估,涵盖五个基准测试。在评论和精炼设置中,RefCritic在所有基准测试中都表现出持续的优势,例如,对于各自的基础模型,在AIME25上分别获得了6.8%和7.2%的提升。值得注意的是,在多数投票下,由RefCritic过滤的策略模型显示出随着投票数量增加而出现的卓越扩展性。此外,尽管在解决方案级监督下进行训练,RefCritic在ProcessBench(一个识别数学推理中错误步骤的基准测试)上优于步骤级监督方法。
随着大型语言模型(LLM)的快速发展,开发有效的批评模块以提供精确指导变得至关重要但充满挑战。在本文中,我们初步表明,用于构建批评模块的监督微调(当前解决方案中广泛采用的方法)未能真正增强模型的批评能力,产生的批评流于表面,缺乏充分的反思和验证。为了释放前所未有的批评能力,我们提出了RefCritic,一个基于强化学习的长思维链批评模块,它具有双重基于规则的奖励:(1)解决方案判断的实例级正确性;(2)基于批评的策略模型改进准确性,旨在生成高质量的评估和可操作的反馈,有效指导模型改进。我们在五个基准上评估了RefCritic在Qwen2.5-14B-Instruct和DeepSeek-R1-Distill-Qwen-14B上的表现。在批评和改进设置中,RefCritic在所有基准上均表现出一致的优势,例如,在AIME25上,对于各自的基础模型分别获得了6.8%和7.2%的增益。值得注意的是,在多数投票下,经RefCritic筛选的策略模型随着投票数量的增加显示出卓越的扩展性。此外,尽管RefCritic是在解决方案级别的监督下进行训练的,但它在ProcessBench(一个识别数学推理中错误步骤的基准)上优于步骤级监督方法。