⏶27
Reasoning Vectors:通过任务算术转移思维链能力
发表
由
Hasan Abed Al Kader Hammoud 提交
作者:
Mohammad Zbeeb,
Hasan Abed Al Kader Hammoud, Bernard Ghanem

摘要
大型语言模型通常需要昂贵的优化,例如强化学习,才能掌握复杂的推理任务。这项工作表明,一旦学会的推理能力可以作为紧凑的任务向量在模型之间提取和转移。我们选取了两个公开可用的、初始化相同的 Qwen2.5 模型,一个经过监督微调(SFT),另一个在同一数据集上经过组相对策略优化(GRPO)。从中,我们提取了一个推理向量:v_{reason} = theta_{GRPO} - theta_{SFT}。我们假设这个向量捕获了通过强化学习获得的推理能力,同时剔除了 SFT 过程中的共享知识。当通过简单算术将其添加到兼容的指令微调模型中时,该向量在各种推理基准测试中持续提高性能:GSM8K (+4.9%)、HumanEval (+4.3%)、SciQ (+1.7%) 和 BigBenchHard (+12.3% for the 1.5B model)。在对抗条件下,性能提升依然存在。相反,减去该向量会导致性能显著下降(GSM8K 上为 -11.8%),证明了该向量对模型推理能力的重要贡献。这项工作展示了通常通过昂贵的训练获得的推理能力,如何从现有的开源模型中提取,并通过简单的张量算术进行重用,为通过回收先前的计算投入来增强模型提供了一种实用的方法。

该论文表明,推理能力可以作为向量从强化学习训练的模型中提取出来,并通过简单的算术运算添加到其他模型中,从而在不重新训练的情况下增强推理能力。