⏶33
门控联想记忆:用于高效序列建模的并行 O(N) 架构
发表
由
Rishiraj Acharya 提交

作者:
Rishiraj Acharya

摘要
Transformer 架构,以自注意力机制为基础,
已成为序列建模任务的事实标准。然而,其核心
计算基元随着序列长度呈二次方增长 (O(N^2)),
为处理长上下文带来了显著的瓶颈。在本文中,
我们提出门控关联记忆 (GAM) 网络,这是一种新颖的、全并行的
序列建模架构,其复杂度相对于序列长度呈线性增长 (O(N))。
GAM 块用两个并行通道替换了自注意力层:
一个因果卷积,用于高效捕获局部、与位置相关的上下文;
以及一个并行关联记忆检索
机制,用于建模全局、基于内容的模式。这些通道
通过门控机制动态融合,使模型能够灵活地
为每个 token 结合局部和全局信息。我们从
零开始实现了 GAM,并在 WikiText-2
基准测试中,与标准
Transformer 模型和现代线性时间基线 (Mamba) 进行了严格的比较分析,
还在 TinyStories 数据集上与 Transformer 进行了比较。我们的
实验表明,GAM 的速度始终更快,在训练速度上优于两个基线,
并在所有数据集上实现了优于或具有竞争力的最终
验证困惑度,使其成为序列建模的一种有前景且高效的替代方案。
我期待听到社区的看法。