AdaptCLIP:适配CLIP以实现通用视觉异常检测

发表
Bin-Bin GaoBin-Bin Gao 提交
作者: Bin-Bin GaoBin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang

摘要

通用视觉异常检测旨在从新颖或未见的视觉领域识别异常,而无需额外微调,这在开放场景中至关重要。最近的研究表明,预训练的视觉-语言模型(如 CLIP)仅使用零张或少量正常图像即可表现出强大的泛化能力。然而,现有方法在设计提示模板、复杂的 token 交互或需要额外微调方面存在困难,导致灵活性有限。在这项工作中,我们基于两个关键见解提出了一种简单而有效的方法,称为 AdaptCLIP。首先,自适应的视觉和文本表示应该交替学习而不是联合学习。其次,查询图像和正常图像提示之间的比较学习应该结合上下文特征和对齐的残差特征,而不是仅仅依赖于残差特征。AdaptCLIP 将 CLIP 模型视为基础服务,在其输入或输出端仅添加三个简单的适配器:视觉适配器、文本适配器和提示-查询适配器。AdaptCLIP 支持跨领域的零样本/少样本泛化,并且一旦在基础数据集上训练完成,在目标领域无需训练即可应用。AdaptCLIP 在来自工业和医疗领域的 12 个异常检测基准上实现了最先进的性能,显著优于现有的竞争方法。我们将在 https://github.com/gaobb/AdaptCLIP 公开 AdaptCLIP 的代码和模型。
查看 arXiv 页面查看 PDF

评论

Bin-Bin GaoBin-Bin Gao
论文作者
论文提交者

通用视觉异常检测旨在识别来自新颖或未见的视觉领域的异常,无需额外的微调。我们提出了一个简单而有效的 AdaptCLIP,基于以下两个关键见解:

  • 自适应的视觉和文本表示应该交替学习,而不是联合学习。

  • 对比学习应该融合上下文特征和对齐的残差特征,而不是仅仅依赖残差特征。

Bin-Bin GaoBin-Bin Gao
论文作者
论文提交者

Clipboard_Screenshot_1747401047.png

Bin-Bin GaoBin-Bin Gao
论文作者
论文提交者

中文版本脑图

mindmap-AdaptCLIP_ 基于CLIP的通用视觉异常检测.jpeg