⏶9

SEAM：跨模态语义等价性基准测试，用于视觉-语言模型

08月25日发表

08月28日由 Joseph Tang 提交

作者: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson

摘要

评估视觉语言模型 (VLM) 是否能在各种表示之间进行一致推理是具有挑战性的，因为模态比较通常会受到任务差异和信息不对称的混淆。我们提出了 SEAM，这是一个基准测试，它将四个领域的语义等价输入进行配对，这些领域已存在标准化的文本和视觉表示法。通过在不同模态中使用不同的表示系统，与基于 OCR 的图像-文本配对相比，SEAM 提供了对 VLM 的文本-符号和视觉-空间推理能力的严格比较评估。在我们对 21 个当代模型的测试中，我们观察到系统性的模态失衡：尽管问题包含语义等价信息，但视觉推理的整体表现通常落后于语言推理，并且跨模态的一致性相对较低。我们的错误分析揭示了两个主要驱动因素：领域表示法中 tokenization 导致的文本感知失败，以及导致幻觉的视觉感知失败。我们还表明，我们的结果在很大程度上对视觉变换具有鲁棒性。SEAM 建立了一个可控的、语义等价的环境，用于衡量和改进模态无关的推理。

查看 arXiv 页面查看 PDF

Joseph Tang

论文作者

论文提交者

COLM 2025

SEAM：跨模态语义等价性基准测试，用于视觉-语言模型

摘要

评论