打破探索瓶颈:基于评分表的强化学习促进通用大语言模型推理

发表
YANG ZHOUYANG ZHOU 提交
作者: YANG ZHOUYang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

摘要

大型语言模型(LLMs)的最新进展突显了强化学习(RL)在促进推理能力出现方面的潜力。尽管取得了令人鼓舞的成果,但一个根本性的困境依然存在:RL 的改进依赖于从高质量样本中学习,而这类样本的探索受到 LLMs 固有的局限性限制。这实际上造成了一个不良的循环:无法探索的就无法学习。在这项工作中,我们提出了 Rubric-Scaffolded Reinforcement Learning(RuscaRL),一个新颖的教学脚手架框架,旨在打破通用 LLM 推理的探索瓶颈。具体来说,RuscaRL 引入了清单式评价标准(rubrics)作为(1)生成 rollout 过程中的显式脚手架,不同的评价标准作为外部指导融入任务指令中,以引导多样化的高质量响应。这种指导会随着时间逐渐减弱,鼓励模型内化潜在的推理模式;(2)模型训练过程中可验证的奖励,我们可以利用评价标准作为参考获得稳健的 LLM-as-a-Judge 分数,从而在通用推理任务上实现有效的 RL。大量实验证明了所提出的 RuscaRL 在各种基准测试中的优越性,有效地在 N 最佳评估下扩展了推理边界。值得注意的是,RuscaRL 将 Qwen-2.5-7B-Instruct 在 HealthBench-500 上的分数从 23.6 显著提升至 50.3,超过了 GPT-4.1。此外,我们在 Qwen3-30B-A3B-Instruct 上微调的变体在 HealthBench-500 上取得了 61.1 分,超过了包括 OpenAI-o3 在内的领先 LLMs。
查看 arXiv 页面查看 PDF

评论

YANG ZHOUYANG ZHOU
论文作者
论文提交者

我们很高兴分享我们的最新工作RuscaRL,这是一个新颖的强化学习框架,旨在打破限制LLMs在通用推理任务中探索瓶颈。