训练前先预热:在资源受限环境下释放通用推理能力

发表
Safal ShresthaSafal Shrestha 提交
作者: Safal ShresthaSafal Shrestha, Minwu KimMinwu Kim, Aadim NepalAadim Nepal, Anubhav ShresthaAnubhav Shrestha, Keith Ross

摘要

设计有效的具有推理能力的 LLM 通常需要使用可验证奖励强化学习(RLVR)或使用精心策划的长链思维(CoT)进行蒸馏训练,这两者都严重依赖大量的训练数据。这在高质量训练数据稀缺时带来了重大挑战。我们提出了一种样本高效的两阶段训练策略,用于在有限监督下开发推理 LLM。在第一阶段,我们通过从一个玩具领域(即骑士与无赖(K&K)逻辑谜题)蒸馏长 CoT 来“预热”模型,以获得通用的推理技能。在第二阶段,我们使用有限的目标领域示例对预热后的模型应用 RLVR。我们的实验表明,这种两阶段方法具有多项优势:(i) 仅预热阶段就能促进泛化推理,从而提高包括 MATH、HumanEval+ 和 MMLU-Pro 在内的一系列任务的性能。(ii) 当基础模型和预热模型在相同的小数据集(≤100 个示例)上进行 RLVR 训练时,预热模型始终优于基础模型;(iii) 在 RLVR 训练之前进行预热,即使在特定领域训练后,模型也能保持跨域泛化能力;(iv) 在流水线中引入预热不仅提高了准确性,还在 RLVR 训练过程中提高了整体样本效率。本文的结果强调了预热在数据稀缺环境下构建鲁棒推理 LLM 的前景。
查看 arXiv 页面查看 PDF

评论

Safal ShresthaSafal Shrestha
论文作者
论文提交者

设计有效的具有推理能力的 LLMs 通常需要使用可验证奖励的强化学习 (RLVR) 或使用精心策划的长链思维 (CoT) 进行蒸馏训练,这两者都高度依赖于大量的训练数据。当高质量训练数据量稀缺时,这会带来一个主要挑战。我们提出了一种样本高效的两阶段训练策略,用于在有限监督下开发推理 LLMs。在第一阶段,我们通过从一个玩具领域(即骑士与无赖 (K&K) 逻辑谜题)蒸馏长链思维来“热身”模型,以获得通用推理技能。在第二阶段,我们使用一组有限的目标领域示例对热身后的模型应用 RLVR。我们的实验表明,这种两阶段方法具有以下几个优点:$(i)$ 仅热身阶段就促进了通用推理,提高了在包括 MATH、HumanEval$^{+}$ 和 MMLU-Pro 在内的一系列任务上的性能。$(ii)$ 当基础模型和热身后的模型都在同一小数据集 ($\leq100$ 个示例) 上进行 RLVR 训练时,热身后的模型始终优于基础模型;$(iii)$ 在进行 RLVR 训练前进行热身,使模型即使在特定领域上训练后也能保持跨领域泛化能力;$(iv)$ 在流程中引入热身不仅提高了准确性,还提高了 RLVR 训练期间的整体样本效率。本文的结果突出了热身方法在数据稀缺环境中构建强大的推理 LLMs 的潜力。