⏶4
视觉Transformer的固有忠实注意力图
发表
由
Ananthu Aniraj 提交
作者:
Ananthu Aniraj,
Cassio F. Dantas, Dino Ienco, Diego Marcos

摘要
我们引入了一种基于注意力的方法,该方法使用学习到的二元注意力掩码来确保只有被关注的图像区域影响预测。上下文会强烈影响物体感知,有时会导致有偏见的表示,特别是在物体出现在分布外背景中时。同时,许多图像级别的以物体为中心的任务需要识别相关区域,这通常需要上下文。为了解决这个难题,我们提出了一个两阶段框架:第一阶段处理完整图像以发现物体部分并识别任务相关区域,而第二阶段利用输入注意力掩码将其感受野限制在这些区域,从而实现集中分析,同时过滤掉潜在的虚假信息。这两个阶段都是联合训练的,允许第二阶段完善第一阶段。在各种基准测试中进行的大量实验表明,我们的方法显著提高了抵抗虚假关联和分布外背景的鲁棒性。
代码:https://github.com/ananthu-aniraj/ifam