⏶75
语言模型并行扩展律
发表
由
Niels Rogge 提交

作者:
Mouxiang Chen,
Binyuan Hui,
Zeyu Cui, Jiaxi Yang,
Dayiheng Liu, Jianling Sun,
Junyang Lin, Zhongxin Liu




摘要
人们普遍认为,扩展语言模型需要占用大量的空间或时间成本,这通常通过增加参数(参数扩展)或输出 token(推理时扩展)来实现。我们引入了第三种、推理更高效的扩展范式:在训练和推理时增加模型的并行计算。我们对输入应用 P 种多样化的、可学习的变换,并行执行模型的正向传播,并动态聚合这 P 个输出。这种方法,即并行扩展(ParScale),通过重用现有参数来扩展并行计算,并且可以应用于任何模型结构、优化过程、数据或任务。我们从理论上提出了一种新的扩展定律,并通过大规模预训练进行了验证,结果表明具有 P 个并行流的模型在性能上类似于将参数扩展 O(log P) 倍,同时表现出卓越的推理效率。例如,与实现相同性能提升的参数扩展相比,ParScale 可以使内存增加量减少多达 22 倍,延迟增加量减少多达 6 倍。它还可以通过在少量 token 上进行后训练,将现成的预训练模型转化为并行扩展的模型,从而进一步降低训练成本。我们发现的新扩展定律有望促进更强大模型在低资源场景中的部署,并为计算在机器学习中的作用提供了一个替代视角。
代码: https://github.com/QwenLM/ParScale