推动 LLM 推理的边界

发表
Justin ChenJustin Chen 提交
作者: Justin Chih-Yao Chen, Becky Xiangyu Peng, Prafulla Kumar Choubey, Kung-Hsiang Huang, Jiaxin Zhang, Mohit Bansal, Chien-Sheng Wu

摘要

AI 生成总结
NuRL 是一种使用自生成提示的提示方法,通过从先前无法解决的问题中学习,增强了在线强化学习中 LLM 推理的上限。
当前的在线强化学习(RL)算法,如 GRPO,在 LLM 推理方面存在一个共同的关键限制:它们无法从模型“无解”的问题中学习。换句话说,它们只能提高模型能够探索正确答案的问题的性能。因此,即使解决更简单、可解问题的可能性增加,模型在 RL 训练后其“上限”也不会改变。这些难样本无法为训练做出贡献,因为没有出现轨迹产生奖励,因此没有梯度产生。为了解锁从这些难样本中学习,我们提出了 NuRL,一种“激励”方法,旨在利用自生成提示(即帮助模型降低问题难度的抽象线索)来推动 LLM 推理的上限。给定一个问题及其正确答案,模型会生成一个 CoT,然后生成一个包含解决问题所需核心知识的提示。在训练过程中,我们从基础策略生成 G 个轨迹,并使用通过率来决定是否注入提示。对于通过率为 0% 的难样本,我们注入提示并重新生成一批新的轨迹。这产生了两个好处:(1)提示提高了通过率(从 0% 到非零),从而为以前无法解决的样本引入了训练信号;(2)提示是自生成的,避免了分布偏移,并且不依赖于外部模型。NuRL 在 6 个基准测试和 3 个模型上实现了持续的改进,同时与测试时间缩放兼容。值得注意的是,NuRL 可以提高模型的上限,而 GRPO 则将 pass@1024 保持在基础模型不变。此外,我们对什么构成有效的提示以及提示何时最有用的进行了系统研究。有趣的是,最好的提示是抽象和高层次的,并且在必要时并且在 GRPO 收敛后应用时最有益。
查看 arXiv 页面查看 PDF

评论

Justin ChenJustin Chen
论文提交者

🚨 拓展LLM推理的边界

GRPO可以改进LLM的推理能力,但通常是在模型的舒适区内:难题(通过率0%)仍然无法解决,并且不提供任何学习信号。在NuRL中,我们表明通过自我生成的提示(即高层线索)“引导”LLM可以有效地扩展模型的学习区域 👉在6个基准和3个模型上,pass@1有了持续的提高,并且在具有挑战性的任务上pass@1024提高了7.6%!

论文链接: https://arxiv.org/abs/2509.25666