DataFlex:一种用于大语言模型以数据为中心的动态训练统一框架

发表
bohan zengbohan zeng 提交
作者: Hao LiangHao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui ChenMingrui Chen, Lu Ma, Rongyi Yu, Hengyi Feng, Shixuan Sun, Zimo Meng, Xiaochen MaXiaochen Ma, Xuanlin Yang, Qifeng Cai, Ruichuan An, bohan zengBohan Zeng, Zhen Hao Wong, Chengyu Shen, Runming He, Zhaoyang Han, Yaowei Zheng, Fangcheng Fu, Conghui He, Bin Cui, Zhiyu Li, Weinan E, Wentao Zhang

摘要

AI 生成总结
DataFlex 是一个用于大语言模型动态以数据为中心训练的统一框架,支持样本选择、领域混合调整和样本重加权,同时保持与标准训练工作流的兼容性,并实现高效的大规模部署。
以数据为中心的训练已成为提升大语言模型(LLMs)的一个前景广阔的方向,它不仅优化模型参数,还在优化过程中优化训练数据的选择、组合和权重。然而,现有的数据选择、数据混合优化和数据重加权方法通常是在孤立的代码库中开发的,接口不一致,阻碍了可复现性、公平比较和实际集成。在本文中,我们提出了 DataFlex,这是一个基于 LLaMA-Factory 构建的统一的以数据为中心的内容动态训练框架。DataFlex 支持动态数据优化的三种主要范式:样本选择、领域混合调整和样本重加权,同时保持与原始训练工作流的完全兼容。它提供了可扩展的训练器抽象和模块化组件,能够作为标准 LLM 训练的即插即用替代方案,并统一了关键的模型相关操作(如嵌入提取、推理和梯度计算),同时支持包括 DeepSpeed ZeRO-3 在内的大规模设置。我们在多种以数据为中心的方法上进行了全面实验。在 Mistral-7B 和 Llama-3.2-3B 上,动态数据选择在 MMLU 上的表现始终优于静态全数据训练。对于数据混合,在 SlimPajama 上以 6B 和 30B 令牌规模预训练 Qwen2.5-1.5B 时,DoReMi 和 ODM 相比默认比例提升了 MMLU 准确率和语料库级困惑度。DataFlex 在运行时间上也比原始实现有了持续的改进。这些结果表明,DataFlex 为 LLM 的以数据为中心的动态训练提供了有效、高效且可复现的基础设施。
查看 arXiv 页面查看 PDF

评论

bohan zengbohan zeng
论文作者
论文提交者

DataFlex 是一个以数据为中心的训练框架,通过选择最具影响力的样本、优化样本权重或调整混合比例来提升模型性能。

Meiyi QiangMeiyi Qiang

DataFlex 是PKU DCAI实验室和LLaMA-Factory 团队联合开发的统一大模型数据中心化动态训练框架,一站式支持数据选择、数据混合、样本重加权三大核心能力,完美兼容原生训练流程,还支持 DeepSpeed ZeRO-3 大规模训练,能大幅提升实验可复现性与模型效果,不管是做研究还是实际开发,都很实用,欢迎一起交流~