⏶4
MDK12-Bench:一个用于评估多模态大型语言模型推理能力的多学科基准
04月08日发表
04月15日由
kaipeng 提交
作者: Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
摘要
多模态推理将语言和视觉线索融入问题解决和决策过程,是人类智能的基石,也是迈向通用人工智能的关键一步。然而,目前对多模态大型语言模型(MLLMs)多模态推理能力的评估仍然不足。现有的推理基准测试大多受限于数据规模、领域覆盖范围以及非结构化知识分布。为了弥补这些不足,我们推出了 MDK12-Bench,这是一个多学科基准,旨在通过真实的 K-12 考试来评估 MLLMs 的推理能力。我们的基准涵盖六个学科(数学、物理、化学、生物、地理和信息科学),包含 14 万个推理实例,难度级别覆盖小学至高中。它包含 6,827 个实例级别的知识点标注,这些标注基于完善的知识结构、详尽的答案解析、难度标签和跨年级划分,为全面评估提供了强大的平台。此外,我们还提出了一种新颖的动态评估框架,通过在评估过程中引导问题形式、问题类型和图像风格,来缓解数据污染问题。在 MDK12-Bench 上进行的大量实验揭示了当前 MLLMs 在多模态推理方面存在的显著局限性。我们在该基准测试中获得的发现为下一代模型的发展提供了有益的启示。我们的数据和代码已在 https://github.com/LanceZPF/MDK12 公开。
https://github.com/LanceZPF/MDK12