⏶13

完成胜于完美：通过结构化多轮分解解锁高效推理

05月26日发表

05月27日由 Huang Xuyao 提交

作者: Zihao Zeng, Huang Xuyao Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng

摘要

大型推理模型（LRMs）因其冗长的思维链（CoT）来得出最终答案而受到批评，这导致高首个 token 延迟和总体延迟。通常，LRMs 的 CoT 混合了多个思考单元；每个单元都试图对原始查询生成一个候选答案。因此，提高效率的一个自然想法是减少单元数量。然而，香草 CoT 中的思考单元无法显式管理，这使得这样做具有挑战性。本文引入了多轮分解（MinD）来将传统的 CoT 解码为一系列显式、结构化和按轮次的交互以弥合差距。在 MinD 中，模型对查询提供多轮响应，其中每一轮包含一个思考单元并产生相应的答案。后续轮次可以反映、验证、修改或探索早期轮次思考和答案部分的其他方法。这不仅使答案交付更快，而且还能够对迭代推理过程进行显式控制（即，用户可以在任何轮次停止或继续）。我们遵循监督微调（SFT）然后强化学习（RL）范式来实现 MinD。我们首先通过提示另一个 LLM 将 LRM 的输出重新表述为多轮格式，然后用这些数据调整 LRM。观察到调整后的模型往往比原始模型消耗更多 token（可能是由于多轮格式引入了额外的答案 token），我们提倡利用 GRPO 等 RL 算法来优先考虑 token 使用量较少的正确输出。在 MATH 数据集上使用 R1-Distill 模型进行训练，MinD 可以将输出 token 使用量和首个 token 时间（TTFT）减少高达约 70%，同时在 MATH-500、AIME24、AMC23 和 GPQA-Diamond 等推理基准测试上保持有竞争力的性能。

查看 arXiv 页面查看 PDF

Huang Xuyao

论文作者

论文提交者

链接：https://arxiv.org/abs/2505.19788

完成胜于完美：通过结构化多轮分解解锁高效推理

摘要

评论