MST-Distill:用于跨模态知识蒸馏的混合专门化教师

发表
Hui LiHui Li 提交
作者: Hui LiHui Li, Pengfei Yang, Juanyang Chen, Le Dong, Yanxin Chen, Quan Wang

摘要

知识蒸馏作为一种高效的知识迁移技术,在单模态场景中取得了显著成功。然而,在跨模态设置下,由于数据和统计的异构性,传统的蒸馏方法会遇到巨大挑战,无法有效利用跨模态教师模型中嵌入的互补先验知识。本文通过实验揭示了现有方法中的两个关键问题:蒸馏路径选择和知识漂移。为解决这些局限,我们提出了 MST-Distill,一个以专业化教师混合体为特色的新型跨模态知识蒸馏框架。我们的方法采用了一个跨越跨模态和多模态配置的多样化教师模型集成,并结合了一个实例级路由网络,以实现自适应和动态的蒸馏。这种架构有效超越了依赖单调和静态教师模型的传统方法的限制。此外,我们引入了一个可独立训练的插件式掩码模块,用于抑制模态特定的差异并重建教师表示,从而减轻知识漂移并提升迁移效果。在涵盖视觉、音频和文本的五个多样化多模态数据集上进行的大量实验表明,我们的方法在跨模态蒸馏任务中的性能显著优于现有的最先进知识蒸馏方法。源代码可在 https://github.com/Gray-OREO/MST-Distill 获取。
查看 arXiv 页面查看 PDF

评论

Hui LiHui Li
论文作者
论文提交者

我们很高兴分享我们在跨模态知识蒸馏方面的最新工作:

论文标题:MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

arXiv链接https://arxiv.org/abs/2507.07015

接受状态:已被ACM MM 2025接受 ✅

主要贡献

  • 提出了MST-Distill框架,采用新颖的专业教师混合模型进行跨模态知识蒸馏

  • 引入了实例级路由网络,实现自适应和动态蒸馏

  • 设计了即插即用掩码模块以缓解知识漂移

  • 在5个多模态数据集上显著优于现有最先进方法

代码https://github.com/Gray-OREO/MST-Distill

我们相信这项工作将对跨模态学习社区非常有价值!