⏶8
隐藏在众目睽睽之下:VLM 忽视了它们的视觉表征
发表
由
taesiri 提交

作者: Stephanie Fu, Tyler Bonnen, Devin Guillory, Trevor Darrell
摘要
语言提供了一个自然的接口来指定和评估视觉任务的性能。为了实现这一可能性,视觉语言模型(VLM)必须成功整合视觉和语言信息。我们的工作将VLM与其视觉编码器的直接读取结果进行比较,以了解它们整合这些模态信息的能力。在一系列以视觉为中心的基准测试(例如,深度估计、对应关系)中,我们发现VLM的性能远低于其视觉编码器,甚至下降到接近随机的水平。我们通过对整个VLM进行一系列分析来探究这些结果:即1)视觉表示的退化,2)对任务提示的脆弱性,以及3)语言模型在解决任务中的作用。我们发现,执行这些以视觉为中心任务的瓶颈在于第三类;VLM没有有效利用整个模型中易于访问的视觉信息,并且它们继承了LLM中存在的语言先验。我们的工作有助于诊断开源VLM的故障模式,并提出了一系列评估方法,可用于未来对VLM中视觉理解的研究。
2506.08008