⏶43
ARM:自适应推理模型
发表
由
Jian Xie 提交
作者:
Siye Wu,
Jian Xie,
Yikai Zhang,
Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao
摘要
虽然大型推理模型在复杂任务上表现出色,但它们缺乏根据任务难度调整推理 token 使用量的能力。这通常会导致“过度思考”问题——过度和不必要的推理——尽管可以通过人工干预控制 token 预算来缓解,但这从根本上违背了实现完全自主人工智能的目标。在这项工作中,我们提出了自适应推理模型 (ARM),这是一种能够根据手头的任务自适应选择适当推理格式的推理模型。这些格式包括三种高效格式——直接答案、短 CoT 和代码——以及一种更详细的格式,长 CoT。为了训练 ARM,我们引入了 Ada-GRPO,它是 Group Relative Policy Optimization (GRPO) 的一种改进,解决了传统 GRPO 中的格式崩溃问题。Ada-GRPO 使 ARM 能够实现高 token 效率,平均减少 30%,最多可减少 70% 的 token,同时保持与仅依赖长 CoT 的模型相当的性能。此外,它不仅通过减少 token 生成提高了推理效率,还在训练中带来了 2 倍的加速。除了默认的自适应模式外,ARM 还支持两种额外的推理模式:1) 指令引导模式,允许用户通过特殊 token 显式指定推理格式——这在已知一批任务的适当格式时非常理想。2) 共识引导模式,聚合三种高效格式的输出,并在意见不一致的情况下诉诸长 CoT,在增加 token 使用量的同时优先保证性能。
评论
这是一项出色的工作!我想建议引用下面的论文,该论文也训练/提示大型语言模型进行推理格式选择。 arxiv.org/abs/2409.19381 HybridMind: Meta-Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning. 这项工作训练一个外部中型语言模型/提示一个强大的大型语言模型,以便在模型开始生成推理链之前,对其进行自然语言推理(CoT)或符号语言推理(Python或一阶逻辑)之间的推理格式元选择。我郑重建议在手稿中加入对其关系的讨论,因为这将增强分析的全面性,并进一步推动这一重要领域的研究。
ARM:一个能够根据任务自适应选择推理格式的推理模型,在有效性和效率之间实现更好的权衡!
项目页面:https://team-arm.github.io/arm/
数据与模型:https://huggingface.co/collections/arm-team/arm-68302ffc0dd4f7f154cf3a23