基于影响蒸馏的大规模数据高效选择

发表
Mahdi NikdanMahdi Nikdan 提交
作者: Mahdi NikdanMahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni

摘要

有效的数据选择对于现代大型语言模型(LLMs)的高效训练至关重要。本文引入了 Influence Distillation(影响蒸馏),这是一个新颖、具有数学依据的数据选择框架,它采用二阶信息来最佳地加权训练样本。通过蒸馏每个样本对目标分布的影响,我们的方法分配了模型特定的权重,用于选择 LLM 微调的训练数据,从而指导其在目标领域实现强大性能。我们为梯度下降和 Adam 优化器推导了这些最优权重。为了确保可扩展性并降低计算成本,我们提出了一种基于地标(landmark)的近似方法:对一小部分“地标”样本精确计算影响,然后将其有效传播到所有其他样本以确定它们的权重。我们通过将 Influence Distillation 应用于 Tulu V2 数据集上的指令微调来验证其有效性,目标任务包括 GSM8k、SQuAD 和 MMLU,跨越了 Llama 和 Qwen 系列的几种模型。实验表明,Influence Distillation 达到或超越了最先进的性能,同时实现了高达 3.5 倍的选样速度。
查看 arXiv 页面查看 PDF

评论

Mahdi NikdanMahdi Nikdan
论文作者
论文提交者

在这里找到代码的初版:https://github.com/IST-DASLab/influence_distillation

敬请期待更新!