MIG:通过最大化语义空间中的信息增益进行指令调优的自动数据选择

发表
Yining LiYining Li 提交
作者: Chen YichengYicheng Chen, Yining LiYining Li, Kai Hu, Zerun Ma, Haochen Ye, Kai Chen

摘要

数据质量和多样性是构建有效的指令调优数据集的关键。% 随着开源指令调优数据集的日益普及,自动从海量数据中选择高质量和多样化的子集变得非常有利。% 现有方法通常优先考虑实例质量,并使用启发式规则来维持多样性。% 然而,这种缺乏对整个集合的全面审视常常导致次优结果。% 此外,启发式规则通常侧重于嵌入空间内的距离或聚类,这无法准确捕捉语义空间中复杂指令的意图。% 为了弥合这一差距,我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来建模语义空间,并基于图中信息的分布来量化多样性。% 基于这种度量,我们进一步引入了一种高效的抽样方法,该方法迭代地选择数据样本,以最大化语义空间中的信息增益(MIG)。% 在各种数据集和基础模型上的实验表明,MIG 始终优于最先进的方法。% 值得注意的是,使用 MIG 采样的 5% Tulu3 数据微调的模型取得了与在完整数据集上训练的官方 SFT 模型相当的性能,在 AlpacaEval 上提高了 +5.73%,在 Wildbench 上提高了 +6.89%。
查看 arXiv 页面查看 PDF

评论

Yining LiYining Li
论文作者
论文提交者
ale brownale brown

"信息增益指标" 对于上下文示例选择也非常棒。很酷。