⏶16
微分 Mamba
发表
由
Nadav Schneider 提交
作者:
Nadav Schneider, Itamar Zimerman, Eliya Nachmani
摘要
序列模型,如Transformer和RNN,常将过多的注意力分配给不相关的上下文,导致中间表示噪声过大。这通过促进幻觉、削弱长程和检索能力以及降低鲁棒性来降低大型语言模型(LLM)的能力。最近的研究表明,差分设计可以缓解Transformer中的这个问题,从而提高它们在各种应用中的效率。在本文中,我们探讨了这些最初为Transformer开发的技术是否可以应用于Mamba,这是一种基于选择性状态空间层的新型架构,它以更高的效率实现了Transformer级别的性能。我们表明,将差分设计朴素地应用于Mamba是不足够的,需要仔细的架构修改。为解决此问题,我们引入了一种新颖的Mamba差分机制,并在语言建模基准上进行了经验验证,展示了其改进的检索能力和优于普通Mamba的性能。最后,我们进行了广泛的消融研究和实证分析,以证明我们的设计选择的合理性,并提供证据表明我们的方法有效缓解了基于Mamba模型中的过分配问题。我们的代码已公开可用。




像 Transformer 和 RNNs 这样的序列模型经常将注意力过度分配给不相关的上下文,导致中间表示嘈杂。这通过促进幻觉、削弱长程和检索能力以及降低鲁棒性来降低大型语言模型(LLM)的能力。最近的研究表明,差异化设计可以缓解 Transformer 中的这个问题,从而提高它们在各种应用中的有效性。在本文中,我们探讨了这些最初为 Transformer 开发的技术是否可以应用于 Mamba,Mamba 是一种基于选择性状态空间层的新兴架构,它以更高的效率实现了 Transformer 级别的性能。我们表明,将差异化设计天真地应用于 Mamba 是不够的,需要仔细的架构修改。为了解决这个问题,我们为 Mamba 引入了一种新颖的差异化机制,该机制在语言建模基准上经过了经验验证,展示了改进的检索能力和优于普通 Mamba 的性能。最后,我们进行了广泛的消融研究和实证分析,以证明我们的设计选择是合理的,并提供证据表明我们的方法有效缓解了基于 Mamba 模型中的过度分配问题。我们的代码是公开可用的。