⏶8
请注意!重新审视用于掩码图像建模的注意力探查
发表
由
Bill Psomas 提交

作者:
Bill Psomas,
Dionysis Christopoulos,
Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias



摘要
随着大规模微调(FT)变得越来越不切实际,探测(probing)正成为自监督学习(SSL)的首选评估协议。然而,标准的线性探测(LP)未能充分反映使用掩蔽图像建模(MIM)训练的模型的潜力,原因是图像块标记(patch tokens)的分布式特性。这促使了对注意力探测(attentive probing)的需求,这是一种利用注意力选择性地聚合图像块级别特征的替代方案。尽管注意力探测日益普及,但其研究仍不充分,现有方法存在参数化过度和计算效率低下的问题。
在这项工作中,我们从准确性-效率权衡的角度重新审视了注意力探测。我们对现有方法进行了系统性研究,分析其机制并评估其性能。我们引入了高效探测(efficient probing, EP),这是一种多查询交叉注意力机制,它消除了冗余投影,减少了可训练参数的数量,并比传统的多头注意力机制实现了高达10倍的加速。尽管其结构简单,EP 在七个基准测试中均优于 LP 和先前的注意力探测方法,并且能够很好地从 MIM 泛化到不同的预训练范式,能够生成可解释的注意力图,并在少样本(low-shot)和逐层(layer-wise)设置中取得了显著的性能提升。代码可在以下地址获取:https://github.com/billpsomas/efficient-probing。
🚨 新论文发布!
我们从准确性与效率的视角重新审视了注意力探测,探索了注意力如何帮助探测冻结表示。
🧪 敬请期待我们即将发布的高效探测代码:https://github.com/billpsomas/efficient-probing (即将发布!)