重新思考思考令牌:LLM 作为改进算子

发表
FengFeng 提交
作者: Lovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal

摘要

AI 生成总结
并行蒸馏精炼 (PDR) 和顺序精炼 (SR) 通过元认知策略优化准确性和延迟来提高 LLM 的性能,其中 PDR 在数学任务上显示出显著的提升。
推理训练会激励大型语言模型 (LLM) 产生长思考链 (long CoT),这使得它们能够探索具有自我检查的解决方案策略。这可以提高准确性,但会增加上下文长度、token/计算成本和答案延迟。我们想问:当前模型能否利用其元认知,在帕累托前沿上提供其他组合,例如在降低上下文长度和/或延迟的同时提高准确性?抽象地说,我们将模型视为一个改进自身“思考”的算子,拥有一个连续的可能策略。我们识别出一种有趣的推理家族——并行-蒸馏-精炼 (PDR),它执行以下操作:(i) 并行生成多种草稿;(ii) 将其蒸馏到一个有界的文本工作区中;以及 (iii) 基于该工作区进行精炼,生成一个为下一轮提供种子的输出。重要的是,上下文长度(以及计算成本)可以通过并行度进行控制,不再与生成的 token 总数混淆。我们报告了当前模型的 PDR 实例,它们在提供比长 CoT 更高的准确性的同时,延迟更低。将并行度设置为 1 会产生一个有趣的子案例——顺序精炼 (SR)(迭代改进单个候选答案),该案例提供了优于长 CoT 的性能。这种模型编排的成功引发了一个问题:进一步的训练是否能够转移帕累托前沿。为此,我们使用强化学习 (RL) 训练了一个 8B 的思考模型,使其与 PDR 推理方法保持一致。在具有可验证答案的数学任务上,迭代流水线在匹配的顺序预算下超越了单遍基线,其中 PDR 带来了最大的收益(例如,在 AIME 2024 上提高了 11%,在 AIME 2025 上提高了 9%)。
查看 arXiv 页面查看 PDF

评论

FengFeng
论文提交者

有趣的论文