⏶21
通用推理器:一个用于冻结大语言模型的单一、可组合的即插即用推理器
发表
由
JaeminKim 提交
作者:
Jaemin Kim, Hangeol Chang, Hyunmin Hwang, Choonghan Kim, Jong Chul Ye
摘要
大型语言模型(LLMs)展现出卓越的通用能力,但增强推理等技能通常需要大量计算资源,并可能损害其泛化能力。尽管参数高效微调(PEFT)方法提供了更节省资源的替代方案,但由于架构依赖性,它们通常需要针对每个LLM骨干模型进行重新训练。为应对这些挑战,我们提出通用推理器(UniR)——一个单一、轻量、可组合、即插即用的推理模块,可与任何冻结的LLM结合使用,赋予其专门的推理能力。具体而言,UniR将奖励分解为一个独立的推理模块,该模块使用预定义奖励独立训练,有效地将轨迹级信号转化为 token 级指导。一旦训练完成,UniR可以在推理时与任何冻结的LLM结合,只需将其输出 logits 加到 LLM 骨干模型的 logits 上即可。这种加性结构自然地实现了模块化组合:针对不同任务训练的多个 UniR 模块可以通过对其 logits 求和共同应用,通过组合实现复杂推理。在数学推理和机器翻译任务上的实验结果表明,UniR 使用 Llama3.2 模型显著优于现有的基线微调方法。此外,UniR 展现出强大的弱-强泛化能力:在较小模型上训练的推理模块可以有效地指导大得多的LLMs。这使得 UniR 成为一种经济高效、适应性强且鲁棒的解决方案,用于增强LLMs的推理能力,同时不损害其核心能力。代码已开源于 https://github.com/hangeol/UniR
我们提出了 Universal Reasoner (UniR) - 一个单一、轻量级、可组合且即插即用的推理模块,可以与任何冻结的大型语言模型一起使用,赋予其专门的推理能力。