⏶21

通用推理器：一个用于冻结大语言模型的单一、可组合的即插即用推理器

05月25日发表

05月29日由 JaeminKim 提交

作者: Jaemin Kim, Hangeol Chang, Hyunmin Hwang, Choonghan Kim, Jong Chul Ye

摘要

大型语言模型（LLMs）展现出卓越的通用能力，但增强推理等技能通常需要大量计算资源，并可能损害其泛化能力。尽管参数高效微调（PEFT）方法提供了更节省资源的替代方案，但由于架构依赖性，它们通常需要针对每个LLM骨干模型进行重新训练。为应对这些挑战，我们提出通用推理器（UniR）——一个单一、轻量、可组合、即插即用的推理模块，可与任何冻结的LLM结合使用，赋予其专门的推理能力。具体而言，UniR将奖励分解为一个独立的推理模块，该模块使用预定义奖励独立训练，有效地将轨迹级信号转化为 token 级指导。一旦训练完成，UniR可以在推理时与任何冻结的LLM结合，只需将其输出 logits 加到 LLM 骨干模型的 logits 上即可。这种加性结构自然地实现了模块化组合：针对不同任务训练的多个 UniR 模块可以通过对其 logits 求和共同应用，通过组合实现复杂推理。在数学推理和机器翻译任务上的实验结果表明，UniR 使用 Llama3.2 模型显著优于现有的基线微调方法。此外，UniR 展现出强大的弱-强泛化能力：在较小模型上训练的推理模块可以有效地指导大得多的LLMs。这使得 UniR 成为一种经济高效、适应性强且鲁棒的解决方案，用于增强LLMs的推理能力，同时不损害其核心能力。代码已开源于 https://github.com/hangeol/UniR

查看 arXiv 页面查看 PDF

JaeminKim

论文作者

论文提交者

我们提出了 Universal Reasoner (UniR) - 一个单一、轻量级、可组合且即插即用的推理模块，可以与任何冻结的大型语言模型一起使用，赋予其专门的推理能力。

通用推理器：一个用于冻结大语言模型的单一、可组合的即插即用推理器

摘要

评论