CLIPSym:用 CLIP 深入对称检测

发表
Md Ashiqur RahmanMd Ashiqur Rahman 提交
作者: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh

摘要

对称性是计算机视觉中最基本的几何线索之一,而检测对称性一直是持续的挑战。随着视觉-语言模型的最新进展,例如 CLIP,我们研究了预训练的 CLIP 模型是否可以通过利用自然图像描述中额外的对称性线索来辅助对称性检测。我们提出了 CLIPSym,它利用 CLIP 的图像和语言编码器,以及基于 Transformer 和 G-Convolution 混合的旋转等变解码器来检测旋转和反射对称性。为了充分利用 CLIP 的语言编码器,我们开发了一种新的提示技术,称为语义感知提示分组 (SAPG),它聚合了多样化的、基于对象的常用提示集合,以更好地整合用于对称性检测的语义线索。经验上,我们表明 CLIPSym 在三个标准对称性检测数据集(DENDI、SDRW 和 LDRS)上的性能优于当前最先进的方法。最后,我们进行了详细的消融实验,验证了 CLIP 的预训练、提出的等变解码器和 SAPG 技术的好处。代码可在 https://github.com/timyoung2333/CLIPSym 获取。
查看 arXiv 页面查看 PDF

评论

Md Ashiqur RahmanMd Ashiqur Rahman
论文提交者

Github:https://github.com/timyoung2333/CLIPSym

Md Ashiqur RahmanMd Ashiqur Rahman
论文提交者

该工作介绍了一种新颖的框架,通过利用预训练的视觉-语言模型 (VLM),特别是 CLIP,来检测图像中的反射和旋转对称性。核心假设是 CLIP 在海量图像-文本对上的预训练包含了固有的对称性线索,这对于此任务是有益的。