Iwin Transformer:使用交错窗口的分层视觉Transformer

发表
sameensameen 提交
作者: sameenSimin Huo, Ning Li

摘要

我们引入了 Iwin Transformer,这是一种新颖的无位置嵌入式分层视觉 Transformer,它通过创新的交错窗口注意力(interleaved window attention)和深度可分离卷积(depthwise separable convolution)的协同作用,可以直接从低分辨率到高分辨率进行微调。这种方法利用注意力连接远距离的 token,并应用卷积连接相邻的 token,从而在单个模块内实现全局信息交换,克服了 Swin Transformer 需要两个连续块才能近似全局注意力的局限性。在视觉基准上的大量实验表明,Iwin Transformer 在图像分类(ImageNet-1K 上达到 87.4% 的 top-1 准确率)、语义分割和视频动作识别等任务中表现出强大的竞争力。我们还验证了 Iwin 中核心组件作为独立模块的有效性,它可以无缝替代类别条件图像生成中的自注意力模块。Iwin Transformer 引入的概念和方法有潜力启发未来的研究,例如视频生成中的 Iwin 3D 注意力。代码和模型可在 https://github.com/cominder/Iwin-Transformer 获取。
查看 arXiv 页面查看 PDF

评论

sameensameen
论文作者
论文提交者

我们介绍了 Iwin Transformer,这是一种新颖的无位置嵌入的分层视觉 Transformer,它通过创新的交错窗口注意力与深度可分离卷积的协同作用,可以直接从低分辨率到高分辨率进行微调。这种方法利用注意力连接远距离的 token,并应用卷积连接相邻的 token,从而在单个模块内实现全局信息交换,克服了 Swin Transformer 需要两个连续块才能近似全局注意力的局限性。在视觉基准上的大量实验表明,Iwin Transformer 在图像分类(ImageNet-1K 上达到 87.4 的 top-1 准确率)、语义分割和视频动作识别等任务中表现出强大的竞争力。我们还验证了 Iwin 中核心组件的有效性,它作为一个独立的模块,可以无缝替代类别条件图像生成中的自注意力模块。Iwin Transformer 引入的概念和方法有可能启发未来的研究,例如视频生成中的 Iwin 3D 注意力。代码和模型可在 https://github.com/Cominder/Iwin-Transformer 获取。

teaser1.PNG

teaser2.PNG