重新审视残差连接:用于稳定高效深度网络的正交更新

发表
Giyeong OhGiyeong Oh 提交
作者: Giyeong OhGiyeong Oh, Woohyun Cho, Siyeol KimSiyeol Kim, Suhwan Choi, Younjae Yu

摘要

残差连接对于深度神经网络至关重要,它们通过缓解梯度消失问题来实现更深的层次。然而,在标准残差更新中,模块的输出被直接添加到输入流中。这可能导致更新主要加强或调整现有流的方向,可能未能充分利用模块学习全新特征的能力。在这项工作中,我们引入了正交残差更新(Orthogonal Residual Update):我们将模块的输出相对于输入流进行分解,并只添加与该流正交的分量。这种设计旨在引导模块主要贡献新的表示方向,从而促进更丰富的特征学习,同时提高训练效率。我们证明了我们的正交更新策略在不同的架构(ResNetV2、Vision Transformers)和数据集(CIFARs、TinyImageNet、ImageNet-1k)上提高了泛化精度和训练稳定性,例如,在ImageNet-1k上,对于ViT-B模型,top-1精度提高了+4.3个百分点。
查看 arXiv 页面查看 PDF

评论

Giyeong OhGiyeong Oh
论文作者
论文提交者

🚀 深度学习中,我们是否高效地使用了残差连接?我们提出“正交残差更新”(Orthogonal Residual Updates):将模块的输出相对于输入流进行分解,并仅添加与输入流正交的分量。这有助于更丰富的特征学习并带来更高效的训练。

💻 代码:https://github.com/BootsofLagrangian/ortho-residual