MathReal:我们来真的!一个用于评估多模态大型语言模型中数学推理的真实场景基准

发表
Jun FengJun Feng 提交
作者: Jun FengJun Feng, Zixin Wang, Zhentao Zhang, Yue Guo, Zhihan Zhou, Xiuyi Chen, Zhenyang Li, Dawei Yin

摘要

多模态大型语言模型(MLLMs)在各种现有基准测试中展现出卓越的视觉数学推理能力。然而,这些基准测试主要基于干净或经过处理的多模态输入,没有纳入真实世界 K-12(幼儿园到高中)教育用户提供的图像。为了弥补这一空白,我们引入了 MathReal,这是一个精心策划的数据集,包含 2,000 道数学题,图像是在真实场景中通过手持移动设备拍摄的。每道题都是一张图像,包含问题文本和视觉元素。我们将真实图像系统地分为三个主要类别:图像质量退化、透视变化和不相关内容干扰,并进一步细分为 14 个子类别。此外,MathReal 涵盖五个核心知识和能力类别,其中包括三种问题类型,并分为三个难度级别。为了全面评估最先进的 MLLMs 在真实场景中的多模态数学推理能力,我们设计了六种实验设置,以系统分析其性能。通过广泛的实验,我们发现现有 MLLMs 的问题解决能力在现实教育环境中受到显著挑战。在此基础上,我们对其性能和错误模式进行了深入分析,提供了对其识别、理解和推理能力的见解,并指明了未来改进的方向。数据和代码:https://github.com/junfeng0288/MathReal
查看 arXiv 页面查看 PDF

评论

Jun FengJun Feng
论文作者
论文提交者

🎯 在本文中,我们提出了 MathReal,这是第一个专门为评估多模态大型语言模型(MLLMs)在真实 K-12 教育环境中的视觉数学推理能力而创建的真实世界基准。我们的工作引入了一个具有挑战性和真实性的数据集,超越了现有的清晰图像基准,反映了日常教育实践中存在的嘈杂、不完美的输入。

我们方法的关键特征包括:

  1. 真实世界多模态数学数据集:MathReal 包含 2,000 道数学题,这些问题是在自然环境下通过手持移动设备捕捉的,问题文本和图表都嵌入在图像中。该数据集涵盖了三类主要的真实世界挑战:图像质量退化、透视变化和无关内容干扰。这些类别进一步细分为 14 个细粒度子类别,以提供真实条件的详细表示。

  2. 全面覆盖和注释:每个问题都根据五个核心知识和能力领域、三种问题类型和三种难度级别进行分类,涵盖整个 K-12 课程。所有样本都经过仔细注释,包含真实文本、详细的图表描述和正确答案,并经过专家注释员验证,以确保准确性和一致性。

  3. 严格评估和见解:我们在六种实验设置下对 40 个 MLLM 进行了评估,结果表明,即使是表现最佳的模型,在处理真实世界图像时,性能也会大幅下降。对照实验证实,模糊、旋转和手写内容等视觉缺陷会严重阻碍感知和推理,突显了当前模型性能与真实世界要求之间的差距。

MathReal 数据集和代码将在 https://github.com/junfeng0288/MathReal 上发布,为在真实教育场景中推进强大的多模态数学推理提供宝贵的资源。🚀