GSM8K-V:视觉语言模型能否解决具有视觉背景的小学数学应用题?

发表
taesiritaesiri 提交
作者: Fan Yuan, Yuchen YanYuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang ShenYongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

摘要

AI 生成总结
GSM8K-V 是一个新的视觉多图像数学推理基准,突显了当前视觉语言模型在处理视觉数学问题方面的局限性。
视觉语言模型(VLM)实现了图像和文本的统一建模,使其能够通过感知、规划和推理来完成复杂的现实世界任务。在这些任务中,推理尤其具有代表性,数学推理是一个突出的例子。它突显了 VLM 理解图像中的数学信息并执行复杂推理的高级能力。最近,提出了许多视觉数学推理基准,但它们通常仅限于几何,未能涵盖数学应用题,并且很少评估跨多个图像的推理。为了弥合这些差距,我们引入了 GSM8K-V,一个纯视觉多图像数学推理基准。GSM8K-V 通过系统地将广泛使用的文本基础 GSM8K 的每个样本映射到视觉形式来构建。通过精心设计的自动化图像生成流水线结合细致的人工标注,我们精心制作了 1,319 个高质量样本。我们在各种开源和闭源模型上评估了 GSM8K-V。结果表明,尽管现有的 VLM 在文本基础 GSM8K 上已接近饱和性能,但在 GSM8K-V 上仍有很大的提升空间。例如,表现最佳的模型 Gemini-2.5-Pro 在 GSM8K 上的准确率达到 95.22%,而在 GSM8K-V 上的准确率仅为 46.93%。我们对 GSM8K-V 进行了全面分析,考察了当前模型的局限性以及潜在的改进方向。GSM8K-V 为视觉数学推理提供了一个新的视角,并建立了一个指导更健壮和更具泛化性的 VLM 开发的基准。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

视觉语言模型(VLM)实现了图像和文本的统一建模,使它们能够通过感知、规划和推理来完成复杂的现实世界任务。在这些任务中,推理尤为突出,数学推理是一个典型的例子。它突出了 VLM 理解图像中的数学信息和进行复杂推理的高级能力。最近,人们提出了许多视觉数学推理基准,但它们通常仅限于几何学,未能涵盖数学应用题,并且很少评估跨多个图像的推理。为了解决这些差距,我们引入了 GSM8K-V,一个纯视觉的多图像数学推理基准。GSM8K-V 通过系统地将广泛使用的基于文本的 GSM8K 中的每个样本映射到视觉形式来构建。通过精心设计的自动化图像生成管道结合细致的人工标注,我们精心策划了 1,319 个高质量样本。我们在各种开源和闭源模型上评估了 GSM8K-V。结果表明,尽管现有的 VLM 在基于文本的 GSM8K 上已接近饱和性能,但在 GSM8K-V 上仍有很大的改进空间。例如,表现最佳的模型 Gemini-2.5-Pro 在 GSM8K 上的准确率为 95.22%,而在 GSM8K-V 上的准确率仅为 46.93%。我们对 GSM8K-V 进行了全面分析,考察了当前模型的局限性以及改进的潜在方向。GSM8K-V 为视觉数学推理提供了一个新的视角,并建立了一个基准来指导开发更健壮、更具通用性的 VLM。