⏶16
哪些数据属性激发了数学和代码推理?一项通过影响函数的研究
发表
由
KouSiqi 提交
作者:
Siqi Kou, Qingyuan Tian, Hanwen Xu,
Zihao Zeng, Zhijie Deng
摘要
大型语言模型(LLM)在数学和编码方面展示了卓越的推理能力,这通常得益于对由更强模型生成的思维链(CoT)进行后训练。然而,现有策展此类训练数据的策略主要依赖于启发式方法,这限制了泛化能力,并且未能捕捉数据中潜在的微妙之处。为了解决这些限制,我们利用影响函数系统地将LLM在数学和编码上的推理能力归因于单个训练示例、序列和标记,从而深入了解有效数据特征。我们的基于影响的推理归因(Infra)揭示了跨数学和编码任务的非平凡跨域效应:高难度数学示例提高了数学和编码推理能力,而低难度编码任务对编码推理的提升最为有效。基于这些发现,我们引入了一种简单而有效的数据重新加权策略,通过翻转任务难度,将Qwen2.5-7B-Instruct在AIME24上的准确率从10%提高到20%,并将LiveCodeBench上的准确率从33.8%提高到35.3%。此外,我们的细粒度归因揭示了序列层面的探索性行为增强了数学和编码的推理性能,并且标记层面的影响模式在数学和编码推理中是不同的:前者偏好自然语言逻辑连接词,后者强调结构化语法。
在本文中,我们提出了一种细粒度的影响函数框架,用于追踪 SFT 阶段的训练数据如何塑造 LLM 在数学和代码任务中的推理能力。