⏶33

门控联想记忆：用于高效序列建模的并行 O(N) 架构

08月30日发表

09月03日由 Rishiraj Acharya 提交

作者: Rishiraj Acharya

摘要

Transformer 架构，以自注意力机制为基础，已成为序列建模任务的事实标准。然而，其核心计算基元随着序列长度呈二次方增长 (O(N^2))，为处理长上下文带来了显著的瓶颈。在本文中，我们提出门控关联记忆 (GAM) 网络，这是一种新颖的、全并行的序列建模架构，其复杂度相对于序列长度呈线性增长 (O(N))。 GAM 块用两个并行通道替换了自注意力层：一个因果卷积，用于高效捕获局部、与位置相关的上下文；以及一个并行关联记忆检索机制，用于建模全局、基于内容的模式。这些通道通过门控机制动态融合，使模型能够灵活地为每个 token 结合局部和全局信息。我们从零开始实现了 GAM，并在 WikiText-2 基准测试中，与标准 Transformer 模型和现代线性时间基线 (Mamba) 进行了严格的比较分析，还在 TinyStories 数据集上与 Transformer 进行了比较。我们的实验表明，GAM 的速度始终更快，在训练速度上优于两个基线，并在所有数据集上实现了优于或具有竞争力的最终验证困惑度，使其成为序列建模的一种有前景且高效的替代方案。

查看 arXiv 页面查看 PDF

Rishiraj Acharya

论文作者

论文提交者

我期待听到社区的看法。

Yury Panikov

很高兴能看到更多关于 Transformer 在相同大型训练数据下的基准测试结果

Rishiraj Acharya

论文作者

论文提交者

是真的。我正试图获得一些计算能力来做更多的实验。我会更新的。

Gabriel Mongaras

对于更大的模型和更长的序列长度，与 mamba/transformers 相比，准确性是否得以保持？

门控联想记忆：用于高效序列建模的并行 O(N) 架构

摘要

评论