视觉编码器中的处理和采集痕迹:CLIP 对您的相机了解多少?

发表
Vladan StojnicVladan Stojnic 提交
作者: Ryan RamosRyan Ramos, Vladan StojnicVladan Stojnić, Giorgos Kordopatis-Zilos, Yuta Nakashima, Giorgos Tolias, Noa Garcia

摘要

先前的研究已经分析了视觉编码器在图像变换和损坏情况下的鲁棒性,特别是在训练期间未曾见过此类改变的情况下。当这种情况发生时,它们会在测试时引入一种分布偏移,通常会导致性能下降。主要关注点是严重的损坏,当 aggressively 应用时,它们会扭曲准确语义预测所需的有用信号。 我们从不同的角度出发,分析图像采集过程的参数以及可能对人眼来说微小甚至难以察觉的变换。我们发现这些参数系统地编码在学习到的视觉表示中,并且可以很容易地恢复。更令人惊讶的是,它们的存在可以对语义预测产生深远的影响,无论是积极的还是消极的。这种影响取决于语义标签与这些基于采集或基于处理的标签之间是否存在强烈的相关性或反相关性。我们的代码和数据可在以下网址获取:https://github.com/ryan-caesar-ramos/visual-encoder-traces
查看 arXiv 页面查看 PDF

评论

Vladan StojnicVladan Stojnic
论文作者
论文提交者

Screenshot 2025-08-15 at 10.23.10.png