视觉Transformer不需要训练寄存器

发表
NickNick 提交
作者: NickNick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman

摘要

我们调查了视觉Transformer中一个先前发现的现象——高范数token的出现导致注意力图嘈杂——背后的机制。我们观察到在多种模型(例如CLIP、DINOv2)中,一小部分稀疏的神经元负责将高范数激活集中在异常值token上,从而导致不规则的注意力模式并降低下游视觉处理的性能。现有的去除这些异常值的解决方案涉及从头开始使用额外的学习到的寄存器token重新训练模型,而我们则利用我们的发现,创建了一种免训练方法来减轻这些伪影。通过将我们发现的寄存器神经元中的高范数激活转移到一个额外的未训练token中,我们可以在没有寄存器token训练的模型上模拟寄存器token的效果。我们证明,我们的方法可以生成更清晰的注意力图和特征图,在多个下游视觉任务上提升了基线模型的性能,并取得了与明确使用寄存器token训练的模型相当的结果。随后,我们将测试时寄存器扩展到现成的视觉语言模型,以提高它们的可解释性。我们的结果表明,测试时寄存器在测试时有效地承担了寄存器token的角色,为任何未附带寄存器token发布的预训练模型提供了免训练解决方案。
查看 arXiv 页面查看 PDF

评论