⏶6
Critique-GRPO:利用自然语言和数值反馈推进大型语言模型推理
发表
由
Kaituo Feng 提交
作者: Xiaoying Zhang, Hao Sun,
Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
摘要
最近,带有数值反馈(如标量奖励)的强化学习(RL)取得了进展,显著增强了大型语言模型(LLM)的复杂推理能力。尽管取得了这些成功,我们仍发现仅依赖数值反馈的强化学习面临三个关键挑战:性能平台期、自我反思效果有限以及持续失败。随后我们证明,即使在出现性能平台期后,经过强化学习微调的模型仍然能够通过利用批判形式的自然语言反馈,对持续失败的问题生成正确的修正。基于这一洞察,我们提出了 Critique-GRPO,这是一个在线强化学习框架,它集成了自然语言和数值反馈,以实现有效的策略优化。Critique-GRPO 使 LLM 能够同时从初始响应和批判指导的修正中学习,同时保持探索。使用 Qwen2.5-7B-Base 和 Qwen3-8B-Base 进行的广泛实验表明,Critique-GRPO 在八个具有挑战性的数学、STEM 和通用推理任务上,始终优于基于监督学习和基于强化学习的微调方法,平均 pass@1 分数分别提高了约 4.5% 和 5%。值得注意的是,Critique-GRPO 超越了一个在在线强化学习中融合专家演示的强基线。进一步的分析揭示了关于策略探索的两个关键见解:(1) 更高的熵并不总是保证从探索中高效学习,以及 (2) 更长的响应不一定能带来更有效的探索。
Critique-GRPO:通过自然语言和数值反馈提升大型语言模型推理能力