⏶18
万物互联:一次关于测试时记忆、注意力偏差、保留和在线优化的旅程
发表
由
Ali Behrouz 提交
作者:
Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
摘要
设计高效且有效的架构骨干一直是研究工作的核心,旨在增强基础模型的能力。受到人类认知现象——注意力偏见(优先考虑某些事件或刺激的自然倾向)的启发,我们重新概念化了神经架构,包括 Transformers、Titans 和现代线性循环神经网络,作为关联记忆模块,这些模块使用内部目标(称为注意力偏见)学习键和值的映射。令人惊讶的是,我们观察到大多数现有的序列模型都利用(1)点积相似性或(2)L2 回归目标作为其注意力偏见。超越这些目标,我们提出了一组替代的注意力偏见配置及其有效近似值,以稳定其训练过程。然后,我们将现代深度学习架构中的遗忘机制重新解释为一种保留正则化形式,为序列模型提供了一组新的遗忘门。基于这些见解,我们提出了 Miras,一个通用框架,用于基于以下四个选择设计深度学习架构:(i)关联记忆架构,(ii)注意力偏见目标,(iii)保留门,以及(iv)记忆学习算法。我们提出了三种新型序列模型——Moneta、Yaad 和 Memora——它们超越了现有线性 RNN 的能力,同时保持了快速可并行化的训练过程。我们的实验表明,Miras 中不同的设计选择会产生具有不同优势的模型。例如,Miras 的某些实例在语言建模、常识推理和回忆密集型任务等特殊任务中取得了出色的性能,甚至优于 Transformers 和其他现代线性循环模型。
设计高效且有效的架构骨干一直是增强基础模型能力研究工作的核心。受到人类认知现象——注意力偏差(优先考虑某些事件或刺激的自然倾向)的启发,我们重新概念化了神经架构,包括 Transformers、Titans 和现代线性循环神经网络,将其视为关联记忆模块,这些模块使用内部目标(称为注意力偏差)学习键和值的映射。令人惊讶的是,我们观察到大多数现有的序列模型要么利用 (1) 点积相似性,要么利用 (2) L2 回归目标作为其注意力偏差。超越这些目标,我们提出了一组替代的注意力偏差配置及其有效近似,以稳定其训练过程。然后,我们将现代深度学习架构中的遗忘机制重新解释为一种保留正则化形式,为序列模型提供了一组新颖的遗忘门。基于这些见解,我们提出了 Miras,这是一个通用框架,用于基于以下四个选择设计深度学习架构:(i) 关联记忆架构,(ii) 注意力偏差目标,(iii) 保留门,以及 (iv) 记忆学习算法。我们提出了三种新颖的序列模型——Moneta、Yaad 和 Memora——它们超越了现有线性 RNN 的能力,同时保持了快速可并行化的训练过程。我们的实验表明,Miras 中的不同设计选择产生了具有不同优势的模型。例如,Miras 的某些实例在语言建模、常识推理和回忆密集型任务等特殊任务中取得了卓越的性能,甚至优于 Transformers 和其他现代线性循环模型。