CARFT:通过带标注的思维链强化微调进行对比学习,增强大型语言模型的推理能力

发表
WNQzhuWNQzhu 提交
作者: WNQzhuWenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

摘要

推理能力在大型语言模型(LLMs)的广泛应用中起着至关重要的作用。为了提升LLMs的推理性能,人们提出了各种基于强化学习(RL)的微调方法,以解决仅通过监督微调(SFT)训练的LLMs泛化能力有限的问题。尽管它们有效,但有两个主要限制阻碍了LLMs的进步。首先,传统的基于RL的方法忽略了标注的思维链(CoT),并引入了不稳定的推理路径采样,这通常会导致模型崩溃、训练过程不稳定和性能欠佳。其次,现有的SFT方法通常过度强调标注的CoT,可能由于对潜在CoT的开发不足而导致性能下降。在本文中,我们提出了一种基于标注CoT的对比学习强化微调方法,即 CARFT,以在解决上述限制的同时提升LLMs的推理性能。具体来说,我们提出为每个CoT学习一个表示。基于该表示,我们设计了新颖的对比信号来指导微调过程。我们的方法不仅充分利用了可用的标注CoT,还通过引入额外的无监督学习信号来稳定微调过程。我们进行了全面的实验和深入的分析,与三种基线方法、两个基础模型和两个数据集进行比较,证明了CARFT在鲁棒性、性能(最高提升10.15%)和效率(最高提升30.62%)方面具有显著优势。代码可在 https://github.com/WNQzhu/CARFT 获取。
查看 arXiv 页面查看 PDF

评论

WNQzhuWNQzhu
论文作者
论文提交者

CARFT:通过带有注解的思维链强化微调进行对比学习,提升 LLM 推理能力