⏶4
再探循环神经网络中的双线性状态转移
发表
由
M.Reza Ebrahimi 提交

作者:
M. Reza Ebrahimi, Roland Memisevic

摘要
循环神经网络中隐藏单元的作用通常被视为建模记忆,研究侧重于通过门控机制增强信息保留。一个较少被探索的视角将隐藏单元视为网络执行计算中的积极参与者,而非被动的记忆存储。在本文中,我们重新审视了双线性操作,它涉及隐藏单元与输入嵌入之间的乘法交互。我们从理论和经验上证明,它们构成了在状态跟踪任务中表示隐藏状态演变的自然归纳偏置。这些是需要隐藏单元积极贡献于网络行为的最简单任务类型。我们还表明,双线性状态更新形成了与复杂性不断增加的状态跟踪任务相对应的自然层次结构,其中流行的线性循环网络(如 Mamba)位于该层次结构的最低复杂性中心。

评论

论文作者
论文提交者