⏶75

语言模型并行扩展律

05月15日发表

05月16日由 Niels Rogge 提交

作者: Mouxiang Chen, Binyuan Hui, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Jianling Sun, Junyang Lin, Zhongxin Liu

摘要

人们普遍认为，扩展语言模型需要占用大量的空间或时间成本，这通常通过增加参数（参数扩展）或输出 token（推理时扩展）来实现。我们引入了第三种、推理更高效的扩展范式：在训练和推理时增加模型的并行计算。我们对输入应用 P 种多样化的、可学习的变换，并行执行模型的正向传播，并动态聚合这 P 个输出。这种方法，即并行扩展（ParScale），通过重用现有参数来扩展并行计算，并且可以应用于任何模型结构、优化过程、数据或任务。我们从理论上提出了一种新的扩展定律，并通过大规模预训练进行了验证，结果表明具有 P 个并行流的模型在性能上类似于将参数扩展 O(log P) 倍，同时表现出卓越的推理效率。例如，与实现相同性能提升的参数扩展相比，ParScale 可以使内存增加量减少多达 22 倍，延迟增加量减少多达 6 倍。它还可以通过在少量 token 上进行后训练，将现成的预训练模型转化为并行扩展的模型，从而进一步降低训练成本。我们发现的新扩展定律有望促进更强大模型在低资源场景中的部署，并为计算在机器学习中的作用提供了一个替代视角。

查看 arXiv 页面查看 PDF

Niels Rogge

论文提交者

代码: https://github.com/QwenLM/ParScale

方便移动学习的音频讲解：https://youtu.be/BVJXNTf9xco

ChatGPT Image May 17, 2025, 01_57_30 PM.png

“MUM” -> “Memory”。它是AI生成的，它的奇怪是特点，不是bug！LOL！！！

语言模型并行扩展律

摘要

评论