R&B:领域重组与数据混合平衡以实现高效基础模型训练

发表
Albert GeAlbert Ge 提交
作者: Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

摘要

数据混合策略已成功降低了训练语言模型的成本。尽管前景光明,但此类方法存在两个缺陷。首先,它们依赖于预定的数据域(例如,数据源、任务类型),这可能无法捕捉关键的语义细微差别,从而影响性能。其次,这些方法随着域数量的增加而扩展,计算成本高昂。我们通过 R&B 解决了这些挑战,这是一个根据语义相似性对训练数据进行重新划分(Regroup)以创建更细粒度域的框架,并通过利用在训练过程中获得的域梯度诱导的 Gram 矩阵来有效优化数据组成(Balance)。与先前的工作不同,它无需额外的计算来获取评估信息,例如损失或梯度。我们在标准正则性条件下分析了这项技术,并提供了理论见解,证明了 R&B 相较于非自适应混合方法的有效性。通过实证,我们在五种不同数据集上展示了 R&B 的有效性,这些数据集涵盖了从自然语言到推理和多模态任务。仅需增加 0.01% 的计算开销,R&B 就能达到或超越最先进数据混合策略的性能。
查看 arXiv 页面查看 PDF

评论

Albert GeAlbert Ge
论文提交者

本文介绍了 R&B,这是一种新颖的数据混合框架,通过解决现有方法的两个主要限制来改进语言模型训练。R&B 的工作原理如下:

1) 基于语义相似性而不是预先确定的类别,将训练数据重新分组到更细粒度的领域中,并且

2) 使用在训练期间获得的基于梯度的 Gram 矩阵,有效地平衡数据组成。

与现有方法不同的是,R&B 只需要极少的额外计算开销(仅 0.01%),同时消除了对单独评估信息的需要。作者在标准条件下提供了理论分析,并在涵盖自然语言、推理和多模态任务的五个多样化数据集上展示了 R&B 的有效性,在这些数据集上,它与最先进的数据混合策略相当或超越了它们。