DMM: 通过基于蒸馏的模型合并构建通用的图像生成模型

发表
Tianhui SongTianhui Song 提交
作者: Tianhui SongTianhui Song, Weixin Feng, wangshuaiShuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang

摘要

文本到图像(T2I)生成模型的成功促使从同一基础模型在各种专门数据集上微调的众多模型检查点的激增。这种压倒性的专门模型生产为高参数冗余和巨大的存储成本带来了新的挑战,因此需要开发有效的方法来整合和统一各种强大模型的功能到一个模型中。模型合并中的常见做法是在参数空间中采用静态线性插值来实现风格混合的目标。然而,它忽略了 T2I 生成任务的特征,即许多不同的模型涵盖各种风格,这可能会导致合并模型中的不兼容和混乱。为了解决这个问题,我们引入了一种风格可提示的图像生成管道,该管道可以在风格向量的控制下准确生成任意风格的图像。基于此设计,我们提出了基于分数蒸馏的模型合并范式(DMM),将多个模型压缩为单个多功能 T2I 模型。此外,我们通过提出新的合并目标和评估协议,在 T2I 生成的背景下重新思考和重新制定了模型合并任务。我们的实验表明,DMM 可以紧凑地重组来自多个教师模型的知识,并实现可控的任意风格生成。
查看 arXiv 页面查看 PDF

评论

Tianhui SongTianhui Song
论文作者
论文提交者

代码: https://github.com/MCG-NJU/DMM

Sam FlinSam Flin

这太棒了!