速度至上:大型语言模型高效架构综述

发表
Weigao SunWeigao Sun 提交
作者: Weigao SunWeigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen LanDisen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng

摘要

大型语言模型 (LLM) 在语言理解、生成、推理方面取得了令人印象深刻的成果,并推动了多模态模型的能力边界。Transformer 模型作为现代 LLM 的基础,提供了强大的基线和出色的扩展特性。然而,传统的 Transformer 架构需要大量的计算,给大规模训练和实际部署带来了重大障碍。在这项调查中,我们系统地审查了创新的 LLM 架构,这些架构解决了 Transformer 的固有局限性并提高了效率。从语言建模开始,这项调查涵盖了线性模型和稀疏序列建模方法、高效全注意力变体、稀疏专家混合、结合上述技术的混合模型架构以及新兴的扩散 LLM 的背景和技术细节。此外,我们讨论了这些技术在其他模态中的应用,并考虑了它们对开发可扩展、资源感知的基础模型的更广泛影响。通过将最近的研究分组到上述类别中,这项调查提供了现代高效 LLM 架构的蓝图,我们希望这有助于激发未来研究,以开发更高效、更通用的 AI 系统。
查看 arXiv 页面查看 PDF

评论

Weigao SunWeigao Sun
论文作者
论文提交者

速度永远取胜:大型语言模型高效架构综述