⏶8
Inverse-LLaVA:通过文本到视觉映射消除对齐预训练
发表
由
Xuhui Zhan 提交

作者:
Xuhui Zhan, Tyler Derr

摘要
传统的多模态学习方法需要昂贵的对齐预训练来连接视觉和语言模态,通常将视觉特征投影到离散的文本标记空间中。我们通过提出 Inverse-LLaVA 挑战了该范式背后的两个基本假设,Inverse-LLaVA 是一种新颖的方法,它完全消除了对齐预训练,同时颠倒了传统的映射方向。我们的方法不是将视觉特征投影到文本空间,而是将文本嵌入映射到连续的视觉表示空间,并在 Transformer 中间层中执行融合。通过注意力机制中的选择性附加组件,我们可以在不要求大量图像-文本对齐数据集的情况下动态集成视觉和文本表示。对九个多模态基准进行的综合实验证明了细微的性能权衡:Inverse-LLaVA 在推理密集型和认知任务中取得了显著改进(MM-VET:+0.2%,VizWiz:+1.8%,ScienceQA:+0.2%,认知推理:+27.2%),同时在需要记忆视觉-文本关联的感知任务中表现出预期的下降(名人识别:-49.5%,OCR:-21.3%)。这些结果提供了第一个经验证据,表明对齐预训练对于有效的多模态学习不是必需的,特别是对于复杂的推理任务。我们的工作确立了一种新范式的可行性,该范式将计算要求降低了 45%,挑战了关于模态融合的传统观念,并为保留模态特定特征的高效多模态架构开辟了新的研究方向。我们的项目网站(包含代码和附加资源)可在 https://inverse-llava.github.io 获得。


传统的多模态学习方法需要昂贵的对齐预训练来连接视觉和语言模态,通常是将视觉特征投影到离散的文本标记空间。我们通过提出 Inverse-LLaVA 来挑战这一范式背后的两个基本假设,Inverse-LLaVA 是一种新颖的方法,它完全消除了对齐预训练,同时颠倒了传统的映射方向。我们的方法不是将视觉特征投影到文本空间,而是将文本嵌入映射到连续的视觉表示空间,并在 Transformer 中间层执行融合。通过注意力机制中的选择性附加组件,我们可以在不 H 需要大量图像-文本对齐数据集的情况下,动态地集成视觉和文本表示。对九个多模态基准进行的综合实验展示了细微的性能权衡:Inverse-LLaVA 在推理密集型和认知任务上取得了显著改进(MM-VET:+0.2%,VizWiz:+1.8%,ScienceQA:+0.2%,认知推理:+27.2%),同时在需要记忆视觉-文本关联的感知任务上显示出预期下降(名人识别:-49.5%,OCR:-21.3%)。这些结果首次提供了经验证据,表明对齐预训练对于有效的多模态学习,特别是对于复杂的推理任务来说,并非必需。我们的工作确立了一种新范式的可行性,该范式将计算需求降低了 45%,挑战了关于模态融合的传统观念,并为保持模态特定特征的高效多模态架构开辟了新的研究方向。我们的项目网站包含代码和额外资源,可访问 https://inverse-llava.github.io。