VeOmni:通过以模型为中心的分布式配方库扩展任何模态模型训练

发表
Yaowei ZhengYaowei Zheng 提交
作者: Qianli Ma, Yaowei ZhengYaowei Zheng, Zhelun ShiZhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

摘要

大型语言模型(LLM)的最新进展推动了全模态理解和生成的显著进步。然而,训练全模态 LLM 仍然是一个重大挑战,因为处理不同模态需要异构的模型架构,这需要复杂的系统设计才能进行高效的大规模训练。现有框架通常将模型定义与并行逻辑纠缠在一起,导致可扩展性有限和端到端全模态训练的工程开销巨大。我们提出了 \veomni,一个模块化且高效的训练框架,旨在加速全模态 LLM 的开发。\veomni 引入了以模型为中心的分布式配方,将通信与计算分离,从而实现了全模态 LLM 的高效 3D 并行。 \veomni 还具有灵活的配置接口,支持以最小的代码更改无缝集成新模态。使用 \veomni,一个具有 30B 参数的全模态专家混合(MoE)模型可以以超过 2,800 token/秒/GPU 的吞吐量进行训练,并通过 128 个 GPU 上的 3D 并行扩展到 160K 的上下文长度,展示了其在训练大型全模态 LLM 方面的卓越效率和可扩展性。
查看 arXiv 页面查看 PDF

评论

Yaowei ZhengYaowei Zheng
论文作者
论文提交者

使用 3D 并行(FSDP+SP+EP)训练全模态 LLM

代码:https://github.com/ByteDance-Seed/VeOmni