论视觉嵌入的可排序性

发表
Arnas UselisArnas Uselis 提交
作者: Ankit Sonthalia, Arnas UselisArnas Uselis, Seong Joon Oh

摘要

我们研究视觉嵌入模型是否能沿着线性方向捕获连续的、序数属性,我们称之为“秩轴”(rank axes)。如果将嵌入投影到这样的轴上能保留属性的顺序,我们就将模型定义为对该属性“可排序”(rankable)。我们对7种流行的编码器和9个数据集(包含年龄、人群计数、头部姿态、美学和新近度等属性)进行了研究,结果发现许多嵌入本身就是可排序的。令人惊讶的是,少量的样本,甚至仅凭两个极端示例,通常就足以恢复有意义的秩轴,而无需全面监督。这些发现为向量数据库中的图像排序开辟了新的用例,并激发了对可排序嵌入的结构和学习的进一步研究。我们的代码可在 https://github.com/aktsonthalia/rankable-vision-embeddings 获取。
查看 arXiv 页面查看 PDF

评论

Arnas UselisArnas Uselis
论文作者
论文提交者

我们的工作研究了在 CLIP 和 DINO 等模型中,特征通过连续属性的可排序性,结果表明序数属性通常沿着嵌入空间中的单个排序轴分布!