⏶10
具有显式视觉依赖的多模态数学推理基准测试
发表
由
zhikai wang 提交
作者:
Zhikai Wang,
Jiashuo Sun, Wenqi Zhang,
Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

摘要
大型视觉-语言模型(LVLMs)的最新进展显著增强了它们整合视觉和语言信息的能力,在物体识别、图像标注和视觉问答等任务中达到了接近人类的水平。然而,目前的基准测试通常侧重于评估特定领域专业知识的知识中心评估,往往忽略了对基本数学元素和视觉概念进行推理的核心能力。我们发现评估小学水平数学题存在差距,这类问题依赖于明确的视觉依赖——要求模型识别、整合并跨多个图像进行推理,同时结合常识知识,所有这些对于向更广泛的AGI能力发展至关重要。为了弥补这一差距,我们引入了VCBENCH,这是一个针对具有明确视觉依赖的多模态数学推理的综合基准。VCBENCH包含六个认知领域的1720个问题,共有6697张图像(平均每个问题3.9张),以确保多图像推理。我们在VCBENCH上评估了26个最先进的LVLMs,结果显示性能存在显著差异,即使是顶级模型的准确率也未能超过50%。我们的发现凸显了视觉-数学整合中持续存在的挑战,并为未来LVLM的进展提供了方向。
VCBench 的论文、代码和数据已上线。详情请查看此链接。