⏶15

论视觉嵌入的可排序性

07月04日发表

07月08日由 Arnas Uselis 提交

作者: Ankit Sonthalia, Arnas Uselis, Seong Joon Oh

摘要

我们研究视觉嵌入模型是否能沿着线性方向捕获连续的、序数属性，我们称之为“秩轴”（rank axes）。如果将嵌入投影到这样的轴上能保留属性的顺序，我们就将模型定义为对该属性“可排序”（rankable）。我们对7种流行的编码器和9个数据集（包含年龄、人群计数、头部姿态、美学和新近度等属性）进行了研究，结果发现许多嵌入本身就是可排序的。令人惊讶的是，少量的样本，甚至仅凭两个极端示例，通常就足以恢复有意义的秩轴，而无需全面监督。这些发现为向量数据库中的图像排序开辟了新的用例，并激发了对可排序嵌入的结构和学习的进一步研究。我们的代码可在 https://github.com/aktsonthalia/rankable-vision-embeddings 获取。

查看 arXiv 页面查看 PDF

Arnas Uselis

论文作者

论文提交者

我们的工作研究了在 CLIP 和 DINO 等模型中，特征通过连续属性的可排序性，结果表明序数属性通常沿着嵌入空间中的单个排序轴分布！

论视觉嵌入的可排序性

摘要

评论