⏶43

ARM：自适应推理模型

05月26日发表

05月27日由 Jian Xie 提交

作者: Siye Wu, Jian Xie, Yikai Zhang, Ellie Chen Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao

摘要

虽然大型推理模型在复杂任务上表现出色，但它们缺乏根据任务难度调整推理 token 使用量的能力。这通常会导致“过度思考”问题——过度和不必要的推理——尽管可以通过人工干预控制 token 预算来缓解，但这从根本上违背了实现完全自主人工智能的目标。在这项工作中，我们提出了自适应推理模型 (ARM)，这是一种能够根据手头的任务自适应选择适当推理格式的推理模型。这些格式包括三种高效格式——直接答案、短 CoT 和代码——以及一种更详细的格式，长 CoT。为了训练 ARM，我们引入了 Ada-GRPO，它是 Group Relative Policy Optimization (GRPO) 的一种改进，解决了传统 GRPO 中的格式崩溃问题。Ada-GRPO 使 ARM 能够实现高 token 效率，平均减少 30%，最多可减少 70% 的 token，同时保持与仅依赖长 CoT 的模型相当的性能。此外，它不仅通过减少 token 生成提高了推理效率，还在训练中带来了 2 倍的加速。除了默认的自适应模式外，ARM 还支持两种额外的推理模式：1) 指令引导模式，允许用户通过特殊 token 显式指定推理格式——这在已知一批任务的适当格式时非常理想。2) 共识引导模式，聚合三种高效格式的输出，并在意见不一致的情况下诉诸长 CoT，在增加 token 使用量的同时优先保证性能。

查看 arXiv 页面查看 PDF

Jian Xie

论文作者

论文提交者

ARM：一个能够根据任务自适应选择推理格式的推理模型，在有效性和效率之间实现更好的权衡！

项目页面：https://team-arm.github.io/arm/

数据与模型：https://huggingface.co/collections/arm-team/arm-68302ffc0dd4f7f154cf3a23

UtopiaNo

干得好！

Shawn Saw

刚读完。非常棒的工作！感谢链接到 L1 论文。

Simeng Han

这是一项出色的工作！我想建议引用下面的论文，该论文也训练/提示大型语言模型进行推理格式选择。 arxiv.org/abs/2409.19381 HybridMind: Meta-Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning. 这项工作训练一个外部中型语言模型/提示一个强大的大型语言模型，以便在模型开始生成推理链之前，对其进行自然语言推理（CoT）或符号语言推理（Python或一阶逻辑）之间的推理格式元选择。我郑重建议在手稿中加入对其关系的讨论，因为这将增强分析的全面性，并进一步推动这一重要领域的研究。

Jian Xie

论文作者

论文提交者

感谢你的建议，思梦！HybridMind 是一项很棒的工作，我们将在下一次修订中讨论它。

Simeng Han

谢谢 Jian！

ARM：自适应推理模型

摘要

评论