TiKMiX:在语言模型预训练的动态混合中考虑数据影响

发表
Xiaohuan ZhouXiaohuan Zhou 提交
作者: Yifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang

摘要

语言模型预训练中使用的数据混合是其最终性能的基石。然而,静态混合策略是次优的,因为模型对不同数据域的学习偏好在训练过程中会动态变化。至关重要的是,以计算高效的方式观察这些不断变化的学习偏好仍然是一个重大挑战。为了解决这个问题,我们提出了 TiKMiX,一种根据模型不断变化的学习偏好动态调整数据混合的方法。TiKMiX 引入了 Group Influence,一种用于评估数据域对模型影响的高效指标。该指标使得将数据混合问题表述为寻找最佳、最大化影响力的分布。我们通过两种方法解决这个问题:TiKMiX-D 用于直接优化,以及 TiKMiX-M,它使用回归模型来预测更优的混合。我们在最多 1 万亿 token 上训练了具有不同参数数量的模型。TiKMiX-D 在使用 20% 的计算资源的情况下,性能超过了 REGMIX 等最先进的方法。TiKMiX-M 在 9 个下游基准测试中平均性能提高了 2%。我们的实验表明,模型的学习偏好会随着训练进度和规模而变化,我们证明了基于 Group Influence(一种直接衡量这些偏好程度的指标)动态调整数据混合,通过缓解静态比例导致的消化不足,显著提高了性能。
查看 arXiv 页面查看 PDF

评论

Xiaohuan ZhouXiaohuan Zhou
论文提交者

TiKMiX,一种根据模型不断变化偏好动态调整数据混合比例的方法。