激励大型语言模型实现高级指令遵循的推理

发表
Yulei QinYulei Qin 提交
作者: Yulei QinYulei Qin, Gang LiGang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun

摘要

现有的大型语言模型(LLMs)在遵循复杂指令方面面临挑战,尤其是在存在多个约束且这些约束以并行、链式和分支结构组织时。一个直观的解决方案,即思维链(CoT),被期望能普遍提高 LLMs 的能力。然而,我们发现香草 CoT 由于其简单地转述指令的肤浅推理模式,对性能产生负面影响。它未能剥离约束的组成部分,以识别它们在类型和维度层次结构中的关系。为此,我们提出了一种系统方法,通过激励测试时计算扩展的推理来提升 LLMs 处理复杂指令的能力。首先,我们从现有分类法下对复杂指令的分解出发,并提出了一种可复现的数据获取方法。其次,我们利用强化学习(RL)和可验证的以规则为中心的奖励信号来专门培养指令遵循的推理能力。我们通过样本级对比来加强 CoT 的执行,以解决复杂指令下推理的浅层、非本质性质。我们还利用专家的行为克隆来促进从“快思”LLMs 到“巧思”推理者的稳定分布转移。在七个综合基准上的大量评估证实了所提出方法的有效性,其中一个 1.5B 的 LLM 实现了 11.74% 的性能提升,性能与 8B 的 LLM 相当。代码和数据可在 https://github.com/yuleiqin/RAIF 获取。
查看 arXiv 页面查看 PDF

评论

Yulei QinYulei Qin
论文作者
论文提交者

📃现有的大型语言模型 (LLM) 在遵循复杂指令方面面临挑战,特别是当存在多个约束且这些约束以并行、链式和分支结构组织时。一种直观的解决方案,即思维链 (CoT),被认为可以普遍提升 LLM 的能力。然而,我们发现,简单的 CoT 由于其仅仅复述指令的肤浅推理模式,对性能产生了负面影响。它未能揭示约束的组成,以识别它们在类型和维度层级之间的关系。为此,我们提出了一种系统方法,通过激励推理以实现测试时计算扩展,从而提升 LLM 处理复杂指令的能力。首先,我们基于现有分类法下复杂指令的分解,提出了一种可复现的数据获取方法。其次,我们利用强化学习 (RL) 和可验证的以规则为中心的奖励信号,专门培养用于指令遵循的推理能力。我们通过逐样本对比来解决复杂指令下推理的浅薄、非本质性质,以实现更优的 CoT 强制执行。我们还利用专家行为克隆,促进从快速思考的 LLM 到熟练推理者的稳定分布转移。在七个综合基准上的广泛评估证实了所提出方法的有效性,其中一个 1.5B 的 LLM 取得了 11.74% 的性能提升,与一个 8B 的 LLM 表现相当。

🧑‍💻代码和数据可在 https://github.com/yuleiqin/RAIF 获取。

🤗模型检查点可在 https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369 获取。