⏶3
多少回溯才足够?探索SFT和RL在增强LLM推理能力中的相互作用
发表
由
James Cai 提交
作者:
Hongyi James Cai, Junlin Wang,
Xiaoyin Chen, Bhuwan Dhingra
摘要
大型语言模型(LLMs)的最新突破通过监督微调(SFT)和强化学习(RL)等技术,有效提升了其推理能力,尤其是在具有可验证答案的数学和逻辑问题上。先前的研究表明,强化学习能有效内化搜索策略,实现长链式思维(CoT)推理,其中回溯自然而然地成为一种习得的能力。然而,回溯的精确益处,具体来说,它对推理改进的贡献有多大以及其最佳使用程度,仍然知之甚少。在这项工作中,我们系统地研究了监督微调(SFT)和强化学习(RL)在八项推理任务上的动态:倒计时、数独、Arc 1D、几何、颜色立方体旋转、列表函数、斑马谜题和自指。我们的发现表明,SFT 中用作热身阶段的短 CoT 序列对 RL 训练确实有适度贡献,与冷启动 RL 相比;然而,当任务变得越来越困难时,这种贡献会减弱。受此观察启发,我们构建了在回溯步骤数量上系统变化的合成数据集,并进行了对照实验,以分离正确性(内容)或结构(即回溯频率)的影响。我们发现 (1) 带有回溯的更长 CoT 通常会带来更好、更稳定的 RL 训练,(2) 具有更大搜索空间的更具挑战性的问题在 SFT 阶段往往需要更多的回溯。此外,我们通过对精炼数据的实验证明,RL 训练在很大程度上不受长 CoT 序列正确性的影响,这表明 RL 优先考虑结构模式而非内容正确性。总之,我们的结果为设计优化训练策略以有效扩展 LLM 的推理能力提供了实用见解。
项目页面:github.com/jchy20/how-much-backtrack