⏶22
混合线性注意力的系统分析
发表
由
Rui-Jie Zhu 提交

作者: Dustin Wang,
Rui-Jie Zhu, Steven Abreu,
Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian

摘要
Transformers 在处理长序列时面临二次复杂度与内存问题,促使人们采用使用固定大小隐藏状态的线性注意力机制。然而,线性模型通常存在召回性能有限的问题,导致混合架构结合了线性和全注意力层。尽管对混合架构进行了广泛研究,但线性注意力组件的选择尚未得到深入探讨。我们系统地评估了不同代次的各种线性注意力模型——从向量递归到高级门控机制——无论是独立使用还是混合使用。为了实现这项全面分析,我们训练并开源了 72 个模型:其中 36 个模型具有 3.4 亿参数(200 亿 token),另 36 个模型具有 13 亿参数(1000 亿 token),涵盖了六种线性注意力变体和五种混合比例。在标准语言建模和召回任务上的基准测试表明,性能卓越的独立线性模型在混合架构中不一定表现出色。尽管语言建模在各种线性-全注意力比例下保持稳定,但随着全注意力层的增加,召回率显著提高,尤其是在低于 3:1 的比例时。我们的研究强调,选择性门控、分层递归和受控遗忘对于有效的混合模型至关重要。我们推荐 HGRN-2 或 GatedDeltaNet 等架构,其线性-全注意力比率在 3:1 到 6:1 之间,以高效地实现 Transformer 级别的召回率。我们的模型已在 https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e 开源。
混合线性注意力机制针对不同比率和变体的系统分析。