通过置信度引导的数据增强改进未知协变量偏移下的知识蒸馏

发表
Niclas PNiclas P 提交
作者: Niclas PNiclas Popp, Kevin Alexander LaubeKevin Alexander Laube, Matthias Hein, Lukas Schott

摘要

在大量数据集上训练的大型基础模型在各个领域都表现出强大的零样本能力。为了在数据和模型规模受限的情况下复制其成功,知识蒸馏已成为将知识从基础模型转移到小型学生网络的既定工具。然而,蒸馏的有效性受到可用训练数据的严重限制。这项工作解决了知识蒸馏中常见的协变量偏移实际问题,即在训练期间出现虚假特征但在测试时未出现。我们提出了一个问题:当这些虚假特征未知,但存在一个鲁棒的教师模型时,学生模型能否也对它们变得鲁棒?我们通过引入一种新颖的基于扩散的数据增强策略来解决这个问题,该策略通过最大化教师模型和学生模型之间的不一致性来生成图像,从而有效地创建学生模型难以处理的挑战性样本。实验表明,我们的方法显著提高了CelebA和SpuCo Birds上在协变量偏移下的最差组和平均组准确率,以及虚假ImageNet上的虚假mAUC,超越了最先进的基于扩散的数据增强基线。
查看 arXiv 页面查看 PDF

评论

Niclas PNiclas P
论文作者
论文提交者

当存在强大的教师模型时,知识蒸馏被广泛认为是一种在资源受限环境中训练紧凑模型的有效方法。然而,一个关键的限制是对可用训练数据的依赖。我们提出一个问题:学生能否从教师那里学习到训练分布之外的知识?具体而言,我们研究了协变量偏移(例如训练期间虚假特征的存在)如何影响蒸馏。为了解决这个问题,我们引入了ConfiG,一种置信度引导的合成数据增强方法。ConfiG 利用扩散模型生成样本,揭示教师和学生预测之间的不匹配,鼓励学生超越虚假相关性进行泛化。