⏶13
完成胜于完美:通过结构化多轮分解解锁高效推理
发表
由
Huang Xuyao 提交
作者:
Zihao Zeng,
Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng
摘要
大型推理模型(LRMs)因其冗长的思维链(CoT)来得出最终答案而受到批评,这导致高首个 token 延迟和总体延迟。通常,LRMs 的 CoT 混合了多个思考单元;每个单元都试图对原始查询生成一个候选答案。因此,提高效率的一个自然想法是减少单元数量。然而,香草 CoT 中的思考单元无法显式管理,这使得这样做具有挑战性。本文引入了多轮分解(MinD)来将传统的 CoT 解码为一系列显式、结构化和按轮次的交互以弥合差距。在 MinD 中,模型对查询提供多轮响应,其中每一轮包含一个思考单元并产生相应的答案。后续轮次可以反映、验证、修改或探索早期轮次思考和答案部分的其他方法。这不仅使答案交付更快,而且还能够对迭代推理过程进行显式控制(即,用户可以在任何轮次停止或继续)。我们遵循监督微调(SFT)然后强化学习(RL)范式来实现 MinD。我们首先通过提示另一个 LLM 将 LRM 的输出重新表述为多轮格式,然后用这些数据调整 LRM。观察到调整后的模型往往比原始模型消耗更多 token(可能是由于多轮格式引入了额外的答案 token),我们提倡利用 GRPO 等 RL 算法来优先考虑 token 使用量较少的正确输出。在 MATH 数据集上使用 R1-Distill 模型进行训练,MinD 可以将输出 token 使用量和首个 token 时间(TTFT)减少高达约 70%,同时在 MATH-500、AIME24、AMC23 和 GPQA-Diamond 等推理基准测试上保持有竞争力的性能。
链接:https://arxiv.org/abs/2505.19788