⏶16
学习跳过Transformer的中间层
发表
由
Tim Lawson 提交

作者:
Tim Lawson, Laurence Aitchison

摘要
条件计算是使Transformer更高效的常用策略。现有方法通常针对单个模块(例如,专家混合层)或独立地跳过层。然而,可解释性研究表明,Transformer的中间层表现出更大的冗余性,而早期层则将信息聚合到token位置。受这些见解的启发,我们提出了一种新颖的架构,它能从中间向外动态跳过可变数量的层。具体来说,一个学习到的门控机制根据输入决定是否绕过对称的中心块范围,而一个门控注意力机制则阻止后续token关注跳过的token位置。残差范数通过“三明治”或“逐层归一化”(perilayernorm)方案控制,门控稀疏性则通过自适应正则化损失控制。我们曾旨在减少“更简单”token的计算需求,并可能促进多级表征层次的出现,但就所研究的规模而言,与层数更少的密集基线相比,我们的方法在验证交叉熵和估计FLOPs之间的权衡上并未实现改进。我们的代码已在 https://github.com/tim-lawson/skip-middle 发布。
我们探索了一种新颖的门控Transformer架构,该架构根据可解释性研究(显示中间层通常是冗余的)以及对分层模型(例如字节级)和块级稀疏性(例如深度混合)日益增长的兴趣,从中间向外动态跳过层。