LIMOPro: 用于高效有效测试时扩展的推理细化

发表
yangxiaoyangxiao 提交
作者: yangxiaoYang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu

摘要

大型语言模型 (LLMs) 通过测试时扩展方法展示了卓越的推理能力,特别是当使用从更强大的大型推理模型 (LRMs) 中提炼出的思维链 (CoT) 数据进行微调时。然而,这些推理链通常包含模仿人类解决问题的冗长元素,可分为渐进推理(基本解决方案开发路径)和功能元素(验证过程、替代解决方案方法和错误修正)。虽然渐进推理至关重要,但功能元素显著增加了测试时推理的计算需求。我们引入了 PIR(基于困惑度的重要性细化),这是一个原则性的框架,根据每个推理步骤对答案预测置信度的影响来定量评估其重要性。PIR 系统地识别并选择性地剪除仅具有低重要性的功能步骤,同时保留渐进推理组件,创建优化的训练数据,在减少冗余的同时保持核心解决方案路径的完整性。在 PIR 优化数据上微调的模型表现出卓越的测试时扩展特性,生成更简洁的推理链,同时在具有挑战性的推理基准(AIME、AMC 和 GPQA Diamond)上提高了准确率(+0.9% 至 +6.6%),并显著减少了 token 使用量(-3% 至 -41%)。我们的方法在不同模型规模、数据来源和 token 预算下表现出很强的泛化性,为在高效测试时扩展、响应时间和计算效率是重要约束的场景中部署具有推理能力的 LLMs 提供了一个实用的解决方案。
查看 arXiv 页面查看 PDF

评论

yangxiaoyangxiao
论文作者
论文提交者

大型语言模型 (LLMs) 通过思维链 (CoT) 方法展现了令人印象深刻的推理能力,特别是在更强大的大型推理模型 (LRMs) 提供的高质量推理数据上进行微调后。然而,从 LRMs 提取的推理链通常包含许多功能性元素,这些元素虽然模仿人类解决问题的过程,但会导致不必要的冗长输出。

LIMOPro 引入了 PIR (基于困惑度的重要性细化),一个系统地细化推理链以优化效率和有效性之间平衡的新颖框架。我们的方法:

  1. 将推理链中的功能模式分为四种不同的模式:渐进式推理和三种类型的功能步骤(验证、多方法验证和错误纠正)

  2. 使用 PIR 指标定量衡量每个功能步骤的贡献,该指标评估移除特定步骤时答案困惑度的变化

  3. 选择性地移除低重要性的功能步骤,同时保留必要的渐进式推理链

在 PIR 优化数据集上微调的模型保持或提高了准确性,同时相较于在未经细化数据上训练的模型,显著减少了响应长度,在具有挑战性的推理基准上实现了高达 55\% 的效率提升。