⏶38
ThinkTwice:联合优化大语言模型的推理与自我修正能力
发表
由
Difan Jiao 提交
作者:
Difan Jiao,
Qianfeng Wen, Blair Yang,
Zhenwei Tang, Ashton Anderson
摘要
AI 生成总结
ThinkTwice 是一个两阶段框架,使用群体相对策略优化(GRPO)共同优化大语言模型的推理和自我修正能力,证明了在数学推理基准测试中性能的提升。我们介绍了 ThinkTwice,这是一个简单的两阶段框架,它基于组相对策略优化(GRPO)联合优化 LLM 以解决推理问题并优化答案。在每一对训练步骤中,ThinkTwice 首先优化模型解决推理问题的能力,然后优化其对相同问题的解决方案进行改进的能力,在这两个阶段中使用相同的二进制正确性奖励,无需额外的正确性信号或批评标注。在包括 Qwen3-4B 和 Olmo3-7B 在内的两个模型系列和五个数学推理基准上,ThinkTwice 相比于竞争激烈的在线策略优化基线,显著提升了推理和优化性能。具体而言,在 Qwen3-4B 上,ThinkTwice 在 AIME 任务上的表现,在优化前比 GRPO 高 5 个百分点,在一次自我优化步骤后高 11.5 个百分点(以 pass@4 衡量)。对 ThinkTwice 训练动态的分析揭示了一个隐含的“先纠正后巩固”的课程学习过程:在训练初期,自我优化主要用于纠正错误,随着模型能力的提升,它自然地转向保留已正确的解,从而产生更具纠偏性的奖励信号。我们的工作确立了推理与自我优化的联合训练作为强化学习可验证奖励(RLVR)的一种原则性且有效的方法论。
评论
ThinkTwice:联合优化大语言模型的推理与自我完善能力
ThinkTwice 是一个两阶段的 GRPO 框架,它训练大语言模型不仅解决推理问题,还能完善自己的方案。该方法仅使用二元正确性奖励,无需批判标注。该研究发现了一个隐含的“纠正后巩固”课程:训练早期主要纠正错误,训练后期则倾向于保留已正确的方案。
核心思想
核心洞察在于推理和自我完善可以在一个简单的两阶段循环中联合优化。在阶段 1 中,模型生成推理问题的初始方案。在阶段 2 中,模型尝试完善该方案。两个阶段在 GRPO 下使用相同的二元正确性奖励信号,消除了对昂贵的批判或偏好标注的需求。

方法/路径
在训练过程中,会自然产生一种“纠正后巩固”的课程效应。在早期迭代中,完善阶段主要纠正错误的初始回答,学习识别并修复错误。随着训练推进和模型初始方案的改进,完善阶段转向保留正确答案——学习何时不应改动。这种双重机制动态并非人工设计,而是从联合优化中自发涌现的。

结果
在 Qwen3-4B 上,ThinkTwice 在 AIME 测试中表现优于标准 GRPO,完善前高出 5 个百分点,完善后高出 11.5 个百分点。该方法可跨架构推广,在 Qwen3-4B 和 OLMo3-7B 上均显示出一致的增益。

我们推出了 ThinkTwice,这是一个简单的两阶段框架,基于群体相对策略优化 (GRPO),联合优化 LLM 以解决推理问题并完善答案。在每对训练步骤中,ThinkTwice 首先优化模型解决推理问题的能力,然后优化其对相同问题自行完善解决方案的能力,在两个阶段中使用相同的二进制正确性奖励,无需正确性信号或批判性注释。在包括 Qwen3-4B 和 Olmo3-7B 在内的两个模型系列及五个数学推理基准测试中,ThinkTwice 相比具有竞争力的在线策略优化基准显著提升了推理和完善性能。