⏶3
FuseLIP:通过离散令牌的早期融合实现多模态嵌入
发表
由
Christian Schlarmann 提交
作者:
Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
摘要
对比语言-图像预训练通过为每种模态设置不同的编码器,在共同的潜在空间中对齐文本-图像对的特征。尽管这种方法在多项零样本任务中取得了令人印象深刻的性能,但它无法原生处理多模态输入,即无法将图像和文本编码成一个单一的特征向量。作为补救措施,通常会使用额外的模块来合并由单模态编码器提取的特征。在这项工作中,我们提出了 FuseLIP,一种用于多模态嵌入的替代架构。借鉴离散图像分词器方面的最新进展,我们提出使用一个单一的 Transformer 模型,该模型在一个扩展的文本和图像 token 词汇表上操作。这种早期融合方法允许不同模态在编码的每个深度进行交互,与常见的后期融合相比,能够获得更丰富的表示。我们收集了新的数据集用于多模态预训练和评估,为多模态编码器模型设计了具有挑战性的任务。我们展示了 FuseLIP 在多模态嵌入任务(如 VQA 和文本引导图像转换检索)中优于其他方法,同时在单模态任务上与基线相当。
FuseLIP:通过离散代币的早期融合实现多模态嵌入