MUR: 动量不确定性引导推理用于大型语言模型

发表
Fangzhi XuFangzhi Xu 提交
作者: Hang Yan, Fangzhi Xu, Rongman Xu, Yifei Li, Jian Zhang, Haoran Luo, Xiaobao Wu, Luu Anh Tuan, Haiteng Zhao, Qika Lin, Jun Liu

摘要

大型语言模型(LLM)在推理密集型任务上取得了令人瞩目的表现,但优化其推理效率仍是一个悬而未决的挑战。尽管测试时缩放(TTS)提高了推理质量,但它常常导致“过度思考”,在冗余计算上浪费令牌。这项工作研究如何在无需额外训练的情况下,高效且自适应地指导LLM的测试时缩放。受物理学中“动量”概念的启发,我们提出了动量不确定性引导推理(MUR),它通过跟踪和聚合随时间变化的逐步不确定性,动态地将思考预算分配给关键推理步骤。为了支持灵活的推理时控制,我们引入了伽马控制(gamma-control),这是一种通过单个超参数调整推理预算的简单机制。我们提供了深入的理论证明,以支持MUR在稳定性和偏差方面的优越性。MUR使用不同尺寸的最新Qwen3模型(1.7B、4B和8B),在MATH-500、AIME24、AIME25和GPQA-diamond这四个具有挑战性的基准测试中,与各种TTS方法进行了全面评估。结果表明,MUR平均减少了超过50%的计算量,同时将准确率提高了0.62-3.37%。
查看 arXiv 页面查看 PDF

评论

Fangzhi XuFangzhi Xu
论文提交者

大型语言模型(LLM)在推理密集型任务上取得了令人瞩目的表现,但优化其推理效率仍然是一个开放的挑战。虽然测试时间扩展(Test-Time Scaling, TTS)可以提高推理质量,但它常常导致“过度思考”,在冗余计算上浪费token。这项工作研究了如何在不额外训练的情况下,高效、自适应地指导LLM的测试时间扩展。受物理学中动量概念的启发,我们提出了动量不确定性引导推理(Momentum Uncertainty-guided Reasoning, MUR),它通过跟踪和聚合随时间变化的逐步不确定性,动态地将思考预算分配给关键的推理步骤。为了支持灵活的推理时控制,我们引入了伽马控制(gamma-control),这是一种通过单个超参数调整推理预算的简单机制。我们提供了深入的理论证明来支持MUR在稳定性与偏差方面的优越性。MUR使用不同规模的最新Qwen3模型(1.7B、4B和8B),在四个具有挑战性的基准测试(MATH-500、AIME24、AIME25和GPQA-diamond)上,与各种TTS方法进行了全面评估。结果表明,MUR平均减少了50%以上的计算量,同时将准确率提高了0.62-3.37%。

jijivskijijivski

🙏 澄清问题

您好,我对这个研究领域不太熟悉,因此可能对某些地方存在误解。感谢您帮助我澄清以下几点:

  1. MUR 与 Per‑Step Scale 的性能比较

为什么 MUR 的性能优于“Per‑Step Scale”,尽管 Per‑Step Scale 在每一步都应用了完全缩放?在图 4 中,代表 Per‑Step Scale 准确率(即上限基线)的虚线低于 MUR 曲线。您是否分析过这种现象的原因?例如,MUR 是否可能在每一步中进行多次缩放,或者 Per‑Step Scale 是否严格地每步只缩放一次?

  1. 推理步骤数量:MUR vs. CoT vs. Per‑Step Scale

MUR 似乎比标准的 CoT 使用更少的平均推理步骤,在 Per‑Step Scale 的情况下甚至更少(图 5)。为什么?此外,我认为图 5 中的“Per-Step Scale Accuracy”是“Per-Step Scale”的笔误,是吗?

在您的实验中,推理步骤是如何定义和划分的?

非常感谢您的时间和帮助——我非常感谢您在理解这些问题上给予的帮助。