⏶7
PictSure:预训练嵌入对上下文学习图像分类器至关重要
发表
由
Cornelius Wolff 提交

作者:
Lukas Schiesser,
Cornelius Wolff,
Sophie Haas,
Simon Pukrop

摘要
在数据稀缺领域,构建图像分类模型仍然很麻烦,因为收集大量带标签的数据集不切实际。上下文学习(ICL)已成为少样本图像分类(FSIC)的一种有前景的范式,使模型无需基于梯度的适应即可跨领域泛化。然而,先前的工作在很大程度上忽视了基于ICL的FSIC流水线中的一个关键组成部分:图像嵌入的作用。在这项工作中,我们提出了PictSure,一个将嵌入模型(包括其架构、预训练和训练动态)置于分析核心的ICL框架。我们系统地研究了不同视觉编码器类型、预训练目标和微调策略对下游FSIC性能的影响。我们的实验表明,训练成功率和域外性能在很大程度上取决于嵌入模型的预训练方式。因此,PictSure在与训练分布显著不同的域外基准测试中,能够超越现有的基于ICL的FSIC模型,同时在域内任务中保持相当的结果。代码可在 https://github.com/PictSure/pictsure-library 找到。

PictSure 核心要点:预训练嵌入对于语境学习图像分类器至关重要
该论文介绍了 PictSure,一个纯视觉语境学习(ICL)框架,用于少样本图像分类(FSIC)。该框架强调了图像嵌入模型的关键作用。与依赖语言监督嵌入(如 CLIP)的现有 ICL 方法不同,PictSure 使用纯视觉特征和基于 Transformer 的推理来分类图像,无需任何微调。
主要贡献包括:
系统分析了嵌入架构(如 ResNet 与 ViT)、预训练策略(如三元组损失)和训练动态如何影响 FSIC 性能。
证据表明,预训练的、冻结的编码器——特别是采用三元组损失的 ViT 模型——能够实现更好的泛化能力,尤其是在域外数据集(例如医学图像)上。
PictSure 在域外任务上优于 CAML 等大型模型,同时保持域内性能的竞争力,尽管其尺寸显著更小。
这项研究强调,在低数据视觉分类场景中,嵌入质量比模型尺寸或语义对齐对于泛化能力而言更为关键。