AttentionInfluence:采用注意力头的影响用于从弱到强的预训练数据选择

发表
Ge ZhangGe Zhang 提交
作者: Kai Hua, Steven Wu, Ge ZhangGe Zhang, shenkeKe Shen

摘要

最近,人们越来越关注收集推理密集型预训练数据,以提高大型语言模型 (LLMs) 的复杂推理能力。先前的方法通常依赖于有监督分类器来识别此类数据,这需要人类或大型语言模型进行标注,通常会引入特定领域的偏差。由于注意力头对于上下文推理至关重要,我们提出了 AttentionInfluence,这是一种无需监督信号、简单但有效的免训练方法。我们的方法使得一个小型预训练语言模型能够通过简单的注意力头掩码操作充当一个强大的数据选择器。具体来说,我们识别出检索头,并在掩盖这些头时计算损失差异。我们将 AttentionInfluence 应用于一个参数量为 1.3B 的密集模型,在包含 241B token 的 SmolLM 语料库上进行数据选择,并将 SmolLM 语料库与包含 73B token 的选定子集混合,使用 1T 训练 token 和 WSD 学习率调度策略来预训练一个参数量为 7B 的密集模型。我们的实验结果表明,在多个知识密集型和推理型基准测试(即 MMLU、MMLU-Pro、AGIEval-en、GSM8K 和 HumanEval)上取得了显著改进,范围从 1.4pp 到 3.5pp。这表明了一种有效的“弱到强”扩展特性,即小型模型能够提高大型模型的最终性能,为以推理为中心的数据选择提供了一条有前景且可扩展的路径。
查看 arXiv 页面查看 PDF

评论

Ge ZhangGe Zhang
论文作者
论文提交者

AttentionInfluence: 一种简单、无需训练、零监督的方法,用于选择富含推理的预训练数据——只需屏蔽注意力头即可!🧠✨ 无需标签。无需重训练。仅需一个 1.3B 模型,即可施展魔法。Arxiv: https://arxiv.org/pdf/2505.07293