⏶9
SEAM:跨模态语义等价性基准测试,用于视觉-语言模型
发表
由
Joseph Tang 提交
作者:
Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson
摘要
评估视觉语言模型 (VLM) 是否能在各种表示之间进行一致推理是具有挑战性的,因为模态比较通常会受到任务差异和信息不对称的混淆。我们提出了 SEAM,这是一个基准测试,它将四个领域的语义等价输入进行配对,这些领域已存在标准化的文本和视觉表示法。通过在不同模态中使用不同的表示系统,与基于 OCR 的图像-文本配对相比,SEAM 提供了对 VLM 的文本-符号和视觉-空间推理能力的严格比较评估。在我们对 21 个当代模型的测试中,我们观察到系统性的模态失衡:尽管问题包含语义等价信息,但视觉推理的整体表现通常落后于语言推理,并且跨模态的一致性相对较低。我们的错误分析揭示了两个主要驱动因素:领域表示法中 tokenization 导致的文本感知失败,以及导致幻觉的视觉感知失败。我们还表明,我们的结果在很大程度上对视觉变换具有鲁棒性。SEAM 建立了一个可控的、语义等价的环境,用于衡量和改进模态无关的推理。
COLM 2025