迷失在嵌入中:视觉-语言模型中的信息丢失

发表
wenyan liwenyan li 提交
作者: wenyan liWenyan Li, Raphael TangRaphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

摘要

AI 生成总结
提出了两种方法来分析和量化视觉语言模型在将视觉输入投影到语言模型嵌入空间期间的信息损失,揭示了显著的失真及其对模型性能的影响。
视觉-语言模型(VLM)通常通过预训练的视觉编码器处理视觉输入,然后通过连接器组件将其投影到语言模型的嵌入空间。虽然这对于模态融合至关重要,但这种投影步骤引起的潜在信息损失及其对模型能力的直接影响仍未得到充分研究。我们引入了两种互补的方法来检查和量化这种损失,通过分析潜在表示空间。首先,我们通过分析投影前后图像表示的k近邻关系的变化来评估语义信息的保留。其次,我们通过从投影表示中重建视觉嵌入来直接测量信息损失,将损失定位在图像块级别。实验表明,连接器会显著扭曲视觉表示的局部几何形状,投影后的k近邻关系会发散40-60%,这与检索性能的下降相关。图像块级别的嵌入重建为模型在视觉基础问答任务上的行为提供了可解释的见解,发现信息损失高的区域可以可靠地预测模型在这些任务上遇到困难的情况。
查看 arXiv 页面查看 PDF

评论

wenyan liwenyan li
论文作者
论文提交者

EMNLP 2025 关于视觉语言模型 (VLM) 中视觉信息丢失的发现论文

Elman GhazaeiElman Ghazaei

好论文 😃