⏶9

Lizard：一种高效的大型语言模型线性化框架

07月11日发表

07月17日由 Franck Dernoncourt 提交

作者: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen

摘要

我们提出了 Lizard，这是一个线性化框架，可将预训练的基于 Transformer 的大型语言模型（LLM）转换为灵活的、亚二次方复杂度的架构，用于无限上下文生成。由于 softmax attention 的二次方复杂度和不断增长的键值（KV）缓存，基于 Transformer 的 LLM 在上下文长度增加时会面临严重的内存和计算瓶颈。Lizard 通过引入一种亚二次方复杂度的注意力机制来解决这些限制，该机制能在保持输出质量的同时，紧密逼近 softmax attention。与以往的线性化方法不同（这些方法常受限于固定的模型结构，因而排除了门控机制），Lizard 融合了一个受近期顶尖线性模型启发的门控模块。这使得模型能够实现自适应内存控制、支持恒定内存推理、具备强大的长度泛化能力，并允许更灵活的模型设计。Lizard 将用于全局上下文压缩的门控线性注意力与由元记忆增强的滑动窗口注意力相结合，形成一种混合机制，既能捕捉长距离依赖关系，也能捕捉细粒度的局部交互。此外，我们还引入了一种硬件感知的算法，以加快我们模型的训练速度。大量实验表明，Lizard 在标准语言建模任务上实现了对教师模型性能的近乎无损的恢复，同时显著优于以往的线性化方法。在 5-shot MMLU 基准测试中，Lizard 的性能比先前模型高出 18 个点，并在关联回忆任务上显示出显著改进。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

此评论已隐藏。