⏶0
(几乎)免费的基础模型模态拼接
发表
由
_ 提交

作者: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
摘要
基础多模态模型通常通过“拼接”多个已有的预训练单模态模型来设计,例如,将一个图像分类器与一个文本模型相结合。这个拼接过程是通过训练一个连接器模块来完成的,该模块旨在对齐这些单模态模型的表示空间,以实现多模态目标。然而,考虑到在网络规模的大型数据集上训练这类连接器的复杂性,以及可用的预训练单模态模型数量日益增多,单模态模型的选择及其后续连接器模块的训练任务变得计算成本极高。为了解决这个研究尚不充分的关键问题,我们提出了超网络模型对齐 (Hyma),这是一种利用超网络技术,为实现最优的单模态模型选择和连接器训练提供的一体化新颖解决方案。具体来说,我们的框架利用超网络的参数预测能力,为 N x M 种单模态模型组合获得联合训练的连接器模块。在我们的实验中,Hyma 将搜索性能最佳的单模态模型对的成本降低了10倍,同时在一系列多样化的多模态基准测试中,其模型对的排名和训练后连接器的性能,与通过网格搜索获得的结果相匹配。
我们提出了Hyma,一个基于超网络的框架,它允许通过连接器将多个预训练的单模态模型在一个运行中拼接成多模态模型,与网格搜索相比,其计算成本要低几个数量级。