⏶44
在推理模型中从同伴学习
发表
由
Tongxu Luo 提交
作者:
Tongxu Luo,
Wenyu Du,
Jiaxi Bi, Stephen Chung,
Zhengyang Tang, Hao Yang, Min Zhang,
Benyou Wang
摘要
大型推理模型 (LRMs) 即使在推理路径上犯错时,也具有自我纠正的能力。然而,我们的研究表明,当推理过程始于一个简短但糟糕的开端时,模型将难以恢复。我们将此现象称为“前缀主导陷阱”(Prefix Dominance Trap)。受心理学研究发现的启发,即同伴互动可以促进自我纠正,同时不影响已经准确的个体,我们提出了 LeaP(Learning from Peers,从同伴学习)方法来解决这一现象。具体而言,每一token,每条推理路径都会总结其中间推理过程,并通过路由机制与其它路径共享,使路径能够在推理过程中整合同伴的见解。然而,我们观察到较小的模型有时无法有效遵循总结和反思指令。为了解决这个问题,我们将它们微调成我们的 LeaP-T 模型系列。在 AIME 2024、AIME 2025、AIMO 2025 和 GPQA Diamond 上的实验表明,LeaP 带来了显著提升。例如,启用 LeaP 的 QwQ-32B 平均性能比基线高出近 5 个绝对百分点,并在三个数学基准测试中超越 DeepSeek-R1-671B,平均提高了 3.3 个百分点。值得注意的是,我们微调的 LeaP-T-7B 在 AIME 2024 上达到了 DeepSeek-R1-Distill-Qwen-14B 的性能。深入分析表明,LeaP 通过及时的同伴见解实现了强大的错误纠正能力,显示出强大的错误容忍能力,并能处理不同难度的任务。LeaP 通过使 LRMs 能够在推理过程中协作,标志着一个里程碑。我们的代码、数据集和模型可在 https://learning-from-peers.github.io/ 获取。
大型推理模型在推理出错时经常陷入困境(即“前缀主导陷阱”)。我们提出了 LeaP (Learning from Peers) 方法,这是一种并行推理路径共享中间摘要,以便在推理过程中相互学习并自我纠正的方法。我们还发布了针对此框架微调的 LeaP-T 模型。实验表明,LeaP 显著提升了推理性能(例如,QwQ-32B 提升了 +5 分),并在 AIME 和 GPQA 等基准测试上提高了错误恢复能力。我们的代码、数据集和模型可在 https://learning-from-peers.github.io/ 获取。