⏶7
DC-SAM:基于双重一致性的图像和视频上下文内万物分割
发表
由
Pengfei Zhu 提交
作者: Mengshi Qi,
Pengfei Zhu,
Xiangtai Li,
Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang

摘要
上下文感知分割旨在给定单个标注示例的情况下,分割出相应的对象。这种设置在少样本学习中被称为单样本分割,它探索了分割模型的泛化能力,并已被应用于各种视觉任务,包括场景理解和图像/视频编辑。尽管最近的 Segment Anything 模型(SAM)在交互式分割中取得了最先进的结果,但这些方法并不能直接应用于上下文感知分割。在这项工作中,我们提出了一种基于提示微调的对偶一致性 SAM(DC-SAM)方法,用于调整 SAM 和 SAM2 以实现图像和视频的上下文感知分割。我们的关键见解是通过提供高质量的视觉提示来增强 SAM 提示编码器在分割中的特征。在生成掩膜先验时,我们融合 SAM 特征,以更好地对齐提示编码器。接着,我们在融合特征和初始视觉提示之间设计了一种循环一致性交叉注意力机制。此外,我们通过在提示编码器中使用判别性的正负提示,提供了一种双分支设计。此外,我们设计了一种简单的掩膜管训练策略,以便将我们提出的对偶一致性方法应用于掩膜管。尽管提出的 DC-SAM 主要针对图像设计,但在 SAM2 的支持下,它可以无缝扩展到视频领域。鉴于视频领域缺乏上下文感知分割的基准,我们手动整理并构建了首个基于现有视频分割数据集的基准,命名为上下文感知视频对象分割(IC-VOS),以便更好地评估模型的上下文感知能力。大量实验表明,我们的方法在 COCO-20i 数据集上取得了 55.5 (+1.4) 的 mIoU,在 PASCAL-5i 数据集上取得了 73.0 (+1.1) 的 mIoU,并在我们提出的 IC-VOS 基准上取得了 71.52 的 J&F 分数。我们的源代码和基准可在 https://github.com/zaplm/DC-SAM 获取。
这项工作的主要贡献包括:
提出了一种基于 SAM 的新颖的提示一致性方法,称为双重一致性 SAM (Dual-Consistency SAM, DC-SAM),专为单次分割任务量身定制。该方法利用视觉提示的正负特征,生成高质量的上下文分割提示。此外,通过结合 SAM 和一种新的掩膜管设计,该设计可以轻松扩展到视频任务。
引入了一种新颖的循环一致性交叉注意力机制,该机制确保最终生成的提示更能聚焦于需要提示的关键区域。当与 SAM 结合时,该机制有效地过滤掉特征中潜在的模糊成分,进一步提高了上下文分割的准确性和特异性。
构建了一个新的视频上下文分割基准 IC-VOS (In-Context Video Object Segmentation),该基准包含从现有视频基准中人工精心挑选的示例。此外,我们还在 IC-VOS 上测试了几个代表性工作的性能。
通过大量的实验和消融研究,所提出的方法在各种数据集和我们新提出的上下文分割基准上取得了最先进的性能。DC-SAM 在 COCO-20i 上达到了 55.5 (+1.4) mIoU,在 PASCAL-5i 上达到了 73.0 (+1.1) mIoU,并在 IC-VOS 基准上取得了 71.52 的 J&F 分数。