⏶19
简单的半监督知识蒸馏:通过双头优化 (DHO) 从视觉-语言模型
发表
由
Dong-Bok Lee 提交
作者:
Seongjae Kang,
Dong Bok Lee,
Hyungjoon Jang, Sung Ju Hwang
摘要
视觉-语言模型(VLMs)通过利用丰富的文本信息和最少的标记数据,在各种任务中取得了显著成功。然而,部署如此庞大的模型仍然具有挑战性,特别是在资源受限的环境中。知识蒸馏(KD)为这个问题提供了一个成熟的解决方案;然而,最近的VLM知识蒸馏方法通常涉及多阶段训练或额外的调优,增加了计算开销和优化复杂性。在本文中,我们提出了 \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO})——一个简单而有效的知识蒸馏框架,用于在半监督设置下将知识从VLMs转移到紧凑的、特定于任务的模型。具体来说,我们引入了双预测头,它们独立地从标记数据和教师预测中学习,并提出在推理过程中线性组合它们的输出。我们观察到 DHO 缓解了监督信号和蒸馏信号之间的梯度冲突,相比单头知识蒸馏基线,实现了更有效的特征学习。因此,大量实验表明,DHO 在多个领域和细粒度数据集上持续优于基线方法。值得注意的是,在 ImageNet 上,它实现了最先进的性能,在使用更少参数的同时,在使用 1% 和 10% 标记数据时,准确率分别提高了 3% 和 0.1%。
评论
论文作者
我们很高兴宣布我们一种从通用基础模型的零/少样本能力中提取知识的方法。随着基础模型能力的不断增强,对训练用于特定任务的紧凑、目标模型的需要在不断增加。我们的方法直接从任务无关的通用模型中提炼出特定任务的应用,有效利用它们解决各种挑战的能力,例如视觉-语言预训练模型所解决的那些挑战。我们在 ImageNet-1k 半监督学习的 1% 和 10% 设置上都取得了新的 SoTA!🔥 https://github.com/erjui/DHO
用于半监督设置的双头优化(DHO)