⏶45

MUR: 动量不确定性引导推理用于大型语言模型

07月20日发表

07月25日由 Fangzhi Xu 提交

作者: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu

摘要

大型语言模型（LLM）在推理密集型任务上取得了令人瞩目的表现，但优化其推理效率仍是一个悬而未决的挑战。尽管测试时缩放（TTS）提高了推理质量，但它常常导致“过度思考”，在冗余计算上浪费令牌。这项工作研究如何在无需额外训练的情况下，高效且自适应地指导LLM的测试时缩放。受物理学中“动量”概念的启发，我们提出了动量不确定性引导推理（MUR），它通过跟踪和聚合随时间变化的逐步不确定性，动态地将思考预算分配给关键推理步骤。为了支持灵活的推理时控制，我们引入了伽马控制（gamma-control），这是一种通过单个超参数调整推理预算的简单机制。我们提供了深入的理论证明，以支持MUR在稳定性和偏差方面的优越性。MUR使用不同尺寸的最新Qwen3模型（1.7B、4B和8B），在MATH-500、AIME24、AIME25和GPQA-diamond这四个具有挑战性的基准测试中，与各种TTS方法进行了全面评估。结果表明，MUR平均减少了超过50%的计算量，同时将准确率提高了0.62-3.37%。

查看 arXiv 页面查看 PDF

Fangzhi Xu

论文提交者

大型语言模型（LLM）在推理密集型任务上取得了令人瞩目的表现，但优化其推理效率仍然是一个开放的挑战。虽然测试时间扩展（Test-Time Scaling, TTS）可以提高推理质量，但它常常导致“过度思考”，在冗余计算上浪费token。这项工作研究了如何在不额外训练的情况下，高效、自适应地指导LLM的测试时间扩展。受物理学中动量概念的启发，我们提出了动量不确定性引导推理（Momentum Uncertainty-guided Reasoning, MUR），它通过跟踪和聚合随时间变化的逐步不确定性，动态地将思考预算分配给关键的推理步骤。为了支持灵活的推理时控制，我们引入了伽马控制（gamma-control），这是一种通过单个超参数调整推理预算的简单机制。我们提供了深入的理论证明来支持MUR在稳定性与偏差方面的优越性。MUR使用不同规模的最新Qwen3模型（1.7B、4B和8B），在四个具有挑战性的基准测试（MATH-500、AIME24、AIME25和GPQA-diamond）上，与各种TTS方法进行了全面评估。结果表明，MUR平均减少了50%以上的计算量，同时将准确率提高了0.62-3.37%。

jijivski

🙏 澄清问题

您好，我对这个研究领域不太熟悉，因此可能对某些地方存在误解。感谢您帮助我澄清以下几点：

MUR 与 Per‑Step Scale 的性能比较

为什么 MUR 的性能优于“Per‑Step Scale”，尽管 Per‑Step Scale 在每一步都应用了完全缩放？在图 4 中，代表 Per‑Step Scale 准确率（即上限基线）的虚线低于 MUR 曲线。您是否分析过这种现象的原因？例如，MUR 是否可能在每一步中进行多次缩放，或者 Per‑Step Scale 是否严格地每步只缩放一次？

推理步骤数量：MUR vs. CoT vs. Per‑Step Scale

MUR 似乎比标准的 CoT 使用更少的平均推理步骤，在 Per‑Step Scale 的情况下甚至更少（图 5）。为什么？此外，我认为图 5 中的“Per-Step Scale Accuracy”是“Per-Step Scale”的笔误，是吗？

在您的实验中，推理步骤是如何定义和划分的？

非常感谢您的时间和帮助——我非常感谢您在理解这些问题上给予的帮助。

MUR: 动量不确定性引导推理用于大型语言模型

摘要

评论