⏶23
Domain2Vec:无需训练即可将数据集向量化以寻找最优数据混合
发表
由
Howe Tissue 提交

作者:
Mozhi Zhang,
Howe Tissue,
Lu Wang, Xipeng Qiu

摘要
我们引入了 Domain2Vec,这是一种新颖的方法,它将任何数据集分解为多个元域的线性组合,元域是一个旨在捕获数据集关键底层特征的新概念。Domain2Vec 维护一个元域词汇表,并使用分类器将任何给定数据集分解为对应于该词汇表上分布的域向量。这些域向量可以在“无需训练”的情况下,在**分布对齐假设**(DA²)下识别语言模型(LM)预训练的最佳数据混合,该假设表明当训练集和验证集的数据分布更好地对齐时,可以实现更低的验证损失。此外,Domain2Vec 可以无缝集成到现有工作中,以模拟域向量与 LM 性能之间的关系,从而大大提高现有方法的效率和可扩展性。大量实验表明,Domain2Vec 有助于找到能够以最小计算开销提高下游任务性能的数据混合。具体而言,Domain2Vec 在 Pile-CC 上实现了相同的验证损失,而所需计算量仅为在原始 The Pile 数据集混合上训练所需的 51.5%。在相同计算预算下,Domain2Vec 将下游性能平均提高了 2.83%。
我们提出了 Domain2Vec,这是一种将数据集向量化以获得所构建元域表示的方法。基于此,我们提出了两种方式:
1) 域对齐假设:无需训练即可找到更好的数据混合方式
2) 将 Domain2Vec 应用到现有的数据混合工作中(例如 RegMix),但计算成本更低,可扩展性更高。
欢迎任何评论、反馈和讨论!