⏶28
图像重建:一种特征分析工具
发表
由
Elizaveta Goncharova 提交
作者:
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova,
Andrey Kuznetsov

摘要
视觉编码器在现代应用中得到越来越广泛的使用,从纯视觉模型到视觉语言模型等多模态系统。尽管它们取得了显著成功,但这些架构如何在内部表示特征仍不清楚。在此,我们提出一种通过图像重建来解释视觉特征的新颖方法。我们比较了两个相关的模型家族SigLIP和SigLIP2,它们仅在训练目标上有所不同,并表明在基于图像的任务上预训练的编码器比在非图像任务(例如对比学习)上训练的编码器保留了显著更多的图像信息。我们进一步将我们的方法应用于一系列视觉编码器,并根据其特征表示的信息量对其进行排名。最后,我们证明操纵特征空间会在重建图像中产生可预测的变化,揭示了正交旋转(而非空间变换)控制着颜色编码。我们的方法可以应用于任何视觉编码器,揭示其特征空间的内部结构。重现实验的代码和模型权重可在GitHub上获取。
视觉编码器在现代应用中得到越来越多的使用,从纯视觉模型到视觉-语言模型等多模态系统。尽管它们取得了显著成功,但这些架构如何在内部表示特征仍不清楚。在此,我们提出一种通过图像重建来解释视觉特征的新方法。我们比较了两个相关的模型家族SigLIP和SigLIP2,它们仅在训练目标上有所不同,并表明在基于图像的任务上预训练的编码器比在非图像任务(如对比学习)上训练的编码器保留了显著更多的图像信息。我们进一步将我们的方法应用于一系列视觉编码器,根据其特征表示的信息量对其进行排名。最后,我们证明操纵特征空间会在重建图像中产生可预测的变化,揭示了正交旋转(而非空间变换)控制颜色编码。我们的方法可以应用于任何视觉编码器,揭示其特征空间的内部结构。重现实验的代码和模型权重可通过此链接获取。