门控联想记忆:用于高效序列建模的并行 O(N) 架构

发表
Rishiraj AcharyaRishiraj Acharya 提交
作者: Rishiraj AcharyaRishiraj Acharya

摘要

Transformer 架构,以自注意力机制为基础, 已成为序列建模任务的事实标准。然而,其核心 计算基元随着序列长度呈二次方增长 (O(N^2)), 为处理长上下文带来了显著的瓶颈。在本文中, 我们提出门控关联记忆 (GAM) 网络,这是一种新颖的、全并行的 序列建模架构,其复杂度相对于序列长度呈线性增长 (O(N))。 GAM 块用两个并行通道替换了自注意力层: 一个因果卷积,用于高效捕获局部、与位置相关的上下文; 以及一个并行关联记忆检索 机制,用于建模全局、基于内容的模式。这些通道 通过门控机制动态融合,使模型能够灵活地 为每个 token 结合局部和全局信息。我们从 零开始实现了 GAM,并在 WikiText-2 基准测试中,与标准 Transformer 模型和现代线性时间基线 (Mamba) 进行了严格的比较分析, 还在 TinyStories 数据集上与 Transformer 进行了比较。我们的 实验表明,GAM 的速度始终更快,在训练速度上优于两个基线, 并在所有数据集上实现了优于或具有竞争力的最终 验证困惑度,使其成为序列建模的一种有前景且高效的替代方案。
查看 arXiv 页面查看 PDF

评论

Rishiraj AcharyaRishiraj Acharya
论文作者
论文提交者

我期待听到社区的看法。

Yury PanikovYury Panikov

很高兴能看到更多关于 Transformer 在相同大型训练数据下的基准测试结果

Rishiraj AcharyaRishiraj Acharya
论文作者
论文提交者

是真的。我正试图获得一些计算能力来做更多的实验。我会更新的。

Gabriel MongarasGabriel Mongaras

对于更大的模型和更长的序列长度,与 mamba/transformers 相比,准确性是否得以保持?