⏶98
Parallel-R1:通过强化学习实现并行思考
发表
由
Xinyu Yang 提交
作者:
Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang,
Runpeng Dai,
Rui Liu,
Huiwen Bao,
Chengsong Huang, Heng Huang, Dong Yu
摘要
AI 生成总结
Parallel-R1 是一种强化学习框架,它通过渐进式课程实现并行思维,从而增强大型语言模型的推理能力,显著提高了数学基准测试的性能。并行思维作为一种新颖的方法,通过并行探索多种推理路径来增强大型语言模型(LLM)的推理能力。然而,通过训练激活这种能力仍然具有挑战性,因为现有方法主要依赖于合成数据上的监督微调(SFT),这鼓励教师强制模仿,而不是探索和泛化。与它们不同,我们提出了 Parallel-R1,这是第一个使复杂现实世界推理任务具备并行思维行为的强化学习(RL)框架。我们的框架采用了一个渐进式课程,明确地解决了使用 RL 训练并行思维的冷启动问题。我们首先使用 SFT 在更容易任务的提示生成的轨迹上灌输并行思维能力,然后过渡到 RL,在更难的问题上探索和泛化这项技能。在各种数学基准测试(包括 MATH、AMC23 和 AIME)上的实验表明,Parallel-R1 成功地灌输了并行思维,在直接使用 RL 在挑战性任务上训练的顺序思维模型上,准确率提高了 8.4%。进一步分析揭示了模型思维行为的明显转变:在早期阶段,它使用并行思维作为探索策略,而在后期阶段,它使用相同的能力进行多角度验证。最重要的是,我们验证了并行思维作为一种中期探索支架,这种暂时的探索阶段在 RL 之后解锁了更高的性能上限,在 AIME25 上比基线提高了 42.9%。我们的模型、数据和代码将在 https://github.com/zhengkid/Parallel-R1 上开源。
并行思考已成为一种新颖的方法,通过同时探索多个推理路径来增强大型语言模型(LLM)的推理能力。然而,通过训练激活此类能力仍然具有挑战性,因为现有方法主要依赖于对合成数据进行监督微调(SFT),这鼓励了教师强制模仿,而不是探索和泛化。与它们不同,我们提出了 Parallel-R1,这是第一个能够实现复杂现实世界推理任务中并行思考行为的强化学习(RL)框架。我们的框架采用了一个渐进式课程,明确解决了使用 RL 训练并行思考的冷启动问题。我们首先在易于任务的提示生成轨迹上使用 SFT 来灌输并行思考能力,然后过渡到 RL,在更难的问题上探索和泛化这项技能。在 MATH、AMC23 和 AIME 等各种数学基准上的实验表明,Parallel-R1 成功地灌输了并行思考,与直接在具有挑战性的任务上使用 RL 训练的顺序思考模型相比,准确率提高了 8.4%。进一步的分析揭示了模型思考行为的明显转变:在早期阶段,它使用并行思考作为一种探索策略,而在后期阶段,它使用相同的功能进行多角度验证。最重要的是,我们验证了并行思考作为一种中期训练探索支架,这种临时的探索阶段在 RL 之后解锁了更高的性能上限,在 AIME25 上比基线提高了 42.9%。