⏶23
Mind the Gap: 弥合思维跳跃鸿沟以改进思维链调优
发表
由
Yuchen Yan 提交

作者:
Haolei Xu,
Yuchen Yan,
Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang

摘要
大型语言模型 (LLMs) 通过思维链 (CoT) 推理在数学任务上取得了显著进展。然而,现有的数学 CoT 数据集经常因专家省略中间步骤而出现“思维跳跃”,这对模型的学习和泛化能力产生负面影响。我们提出了 CoT 思维跳跃桥接任务,旨在自动检测跳跃并生成缺失的中间推理步骤,以恢复 CoT 的完整性和连贯性。为了促进这一点,我们基于结构化的 ScaleQuestMath 数据集构建了一个专门的训练数据集 ScaleQM+,并训练了 CoT-Bridge 来桥接思维跳跃。通过在数学推理基准上的综合实验,我们证明了在桥接数据集上微调的模型始终优于在原始数据集上训练的模型,在 NuminaMath 上提高了高达 +5.87%。我们的方法有效地增强了精炼数据 (+3.02%),并为强化学习提供了更好的起点 (+3.1%),可作为与现有优化技术兼容的即插即用模块。此外,CoT-Bridge 在领域外逻辑推理任务上表现出更好的泛化能力,证实了增强推理完整性带来了广泛适用的益处。
我们很高兴介绍 CoT-Bridge,这是一个新颖的框架,旨在通过自动检测和生成缺失的中间步骤,来解决 CoT 推理中的思维跳跃问题,从而改进模型在各种数学和逻辑推理任务上的学习、泛化能力和性能。