MetaUAS:通过单提示元学习实现通用异常分割

发表
Bin-Bin GaoBin-Bin Gao 提交
作者: Bin-Bin GaoBin-Bin Gao

摘要

零样本和少样本视觉异常分割依赖于强大的视觉-语言模型,这些模型使用手动设计的文本提示来检测未见过的异常。然而,视觉表示本质上独立于语言。在本文中,我们探索了纯视觉基础模型作为广泛使用的视觉-语言模型之外的替代方案,用于通用视觉异常分割的潜力。我们提出了一种新颖的范式,将异常分割统一为变化分割。这种范式使我们能够利用从现有图像数据集中衍生的具有对象级和局部区域变化的大规模合成图像对,这些数据集独立于目标异常数据集。我们提出了一个用于通用异常分割(MetaUAS)的单提示元学习框架,该框架在此合成数据集上进行训练,然后很好地泛化以分割现实世界中任何新颖或未见的视觉异常。为了处理提示图像和查询图像之间的几何变化,我们提出了一个软特征对齐模块,该模块弥合了成对图像变化感知和单幅图像语义分割之间的差距。这是第一项使用纯视觉模型实现通用异常分割的工作,它不依赖于特殊的异常检测数据集和预训练的视觉-语言模型。我们的方法仅使用一张正常图像提示即可有效且高效地分割任何异常,并且无需语言指导即可实现免训练。我们的 MetaUAS 显著优于以前的零样本、少样本甚至全样本异常分割方法。代码和预训练模型可在 https://github.com/gaobb/MetaUAS 获取。
查看 arXiv 页面查看 PDF

评论

Bin-Bin GaoBin-Bin Gao
论文作者
论文提交者

本文探索了纯视觉基础模型作为广泛使用的视觉-语言模型的替代方案,用于通用视觉异常分割的潜力。我们提出了一种用于通用异常分割(MetaUAS)的单提示元学习框架,该框架在合成数据集上进行训练,然后能够很好地泛化以分割现实世界中任何新颖或未见过的视觉异常。这是首次使用纯视觉模型实现通用异常分割,而无需依赖特殊的异常检测数据集和预训练的视觉-语言模型。我们的方法仅使用一个正常图像提示即可有效且高效地分割任何异常,并且无需语言指导即可实现免训练。我们的 MetaUAS 显著优于之前的零样本、少样本甚至全样本异常分割方法。代码和预训练模型可在 https://github.com/gaobb/MetaUAS 获取。