⏶352
DataFlex:一种用于大语言模型以数据为中心的动态训练统一框架
发表
由
bohan zeng 提交
作者:
Hao Liang, Zhengyang Zhao, Meiyi Qiang,
Mingrui Chen, Lu Ma, Rongyi Yu, Hengyi Feng, Shixuan Sun, Zimo Meng,
Xiaochen Ma, Xuanlin Yang, Qifeng Cai, Ruichuan An,
Bohan Zeng, Zhen Hao Wong, Chengyu Shen, Runming He, Zhaoyang Han, Yaowei Zheng, Fangcheng Fu, Conghui He, Bin Cui, Zhiyu Li, Weinan E, Wentao Zhang
摘要
AI 生成总结
DataFlex 是一个用于大语言模型动态以数据为中心训练的统一框架,支持样本选择、领域混合调整和样本重加权,同时保持与标准训练工作流的兼容性,并实现高效的大规模部署。以数据为中心的训练已成为提升大语言模型(LLMs)的一个前景广阔的方向,它不仅优化模型参数,还在优化过程中优化训练数据的选择、组合和权重。然而,现有的数据选择、数据混合优化和数据重加权方法通常是在孤立的代码库中开发的,接口不一致,阻碍了可复现性、公平比较和实际集成。在本文中,我们提出了 DataFlex,这是一个基于 LLaMA-Factory 构建的统一的以数据为中心的内容动态训练框架。DataFlex 支持动态数据优化的三种主要范式:样本选择、领域混合调整和样本重加权,同时保持与原始训练工作流的完全兼容。它提供了可扩展的训练器抽象和模块化组件,能够作为标准 LLM 训练的即插即用替代方案,并统一了关键的模型相关操作(如嵌入提取、推理和梯度计算),同时支持包括 DeepSpeed ZeRO-3 在内的大规模设置。我们在多种以数据为中心的方法上进行了全面实验。在 Mistral-7B 和 Llama-3.2-3B 上,动态数据选择在 MMLU 上的表现始终优于静态全数据训练。对于数据混合,在 SlimPajama 上以 6B 和 30B 令牌规模预训练 Qwen2.5-1.5B 时,DoReMi 和 ODM 相比默认比例提升了 MMLU 准确率和语料库级困惑度。DataFlex 在运行时间上也比原始实现有了持续的改进。这些结果表明,DataFlex 为 LLM 的以数据为中心的动态训练提供了有效、高效且可复现的基础设施。
DataFlex 是一个以数据为中心的训练框架,通过选择最具影响力的样本、优化样本权重或调整混合比例来提升模型性能。