⏶33
视觉-语言-视觉自编码器:从扩散模型中进行可扩展的知识蒸馏
发表
由
Junfei Xiao 提交
作者:
Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei,
Junfei Xiao

摘要
构建具有强大图像字幕生成能力的顶尖视觉-语言模型(VLM)通常需要训练数十亿高质量的图像-文本对,这需要数百万的GPU小时。本文介绍了视觉-语言-视觉(VLV)自编码器框架,该框架战略性地利用了关键的预训练组件:一个视觉编码器、一个文本到图像(T2I)扩散模型的解码器,以及随后一个大型语言模型(LLM)。具体来说,我们通过正则化语言表示空间来建立信息瓶颈,这通过冻结预训练的T2I扩散解码器来实现。我们的VLV管道使用连续嵌入有效地从文本条件扩散模型中提炼知识,通过高质量的重建展示了全面的语义理解。此外,通过微调一个预训练的LLM,将中间语言表示解码为详细描述,我们构建了一个与GPT-4o和Gemini 2.0 Flash等领先模型相媲美的最先进(SoTA)字幕生成器。我们的方法展示了卓越的成本效益并显著减少了数据需求;通过主要利用单模态图像进行训练并最大限度地利用现有预训练模型(图像编码器、T2I扩散模型和LLM),它避免了对大量配对图像-文本数据集的需求,将总训练费用控制在1000美元以下。
我们通过扩散模型的可扩展知识蒸馏技术,构建了最先进的图像标注模型。
项目页面:https://lambert-x.github.io/Vision-Language-Vision/
代码:https://github.com/Tiezheng11/Vision-Language-Vision/tree/main
检查点:https://huggingface.co/lambertxiao/Vision-Language-Vision-Captioner-Qwen2.5-3B
数据集:https://huggingface.co/datasets/ccvl/LAION-High-Qualtiy-Pro-6M-VLV