SEAM:跨模态语义等价性基准测试,用于视觉-语言模型

发表
Joseph TangJoseph Tang 提交
作者: Joseph TangZhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson

摘要

评估视觉语言模型 (VLM) 是否能在各种表示之间进行一致推理是具有挑战性的,因为模态比较通常会受到任务差异和信息不对称的混淆。我们提出了 SEAM,这是一个基准测试,它将四个领域的语义等价输入进行配对,这些领域已存在标准化的文本和视觉表示法。通过在不同模态中使用不同的表示系统,与基于 OCR 的图像-文本配对相比,SEAM 提供了对 VLM 的文本-符号和视觉-空间推理能力的严格比较评估。在我们对 21 个当代模型的测试中,我们观察到系统性的模态失衡:尽管问题包含语义等价信息,但视觉推理的整体表现通常落后于语言推理,并且跨模态的一致性相对较低。我们的错误分析揭示了两个主要驱动因素:领域表示法中 tokenization 导致的文本感知失败,以及导致幻觉的视觉感知失败。我们还表明,我们的结果在很大程度上对视觉变换具有鲁棒性。SEAM 建立了一个可控的、语义等价的环境,用于衡量和改进模态无关的推理。
查看 arXiv 页面查看 PDF

评论

Joseph TangJoseph Tang
论文作者
论文提交者

COLM 2025