BMMR:一个大规模双语多模态多学科推理数据集

发表
Honglin GuoHonglin Guo 提交
作者: Zhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

摘要

在本文中,我们引入了BMMR,一个大规模的双语、多模态、多学科推理数据集,供社区开发和评估大型多模态模型(LMM)。BMMR包含11万个大学水平的问题,涵盖300个联合国教科文组织定义的科目,题型多样——包括选择题、填空题和开放式问答——并来源于书籍、考试和测验等印刷和数字媒体。所有数据都通过人工参与和可扩展的框架进行整理和筛选,每个实例都配有高质量的推理路径。该数据集分为两部分:BMMR-Eval包含20,458个高质量实例,用于全面评估LMM在中文和英文中跨多个学科的知识和推理能力;BMMR-Train包含88,991个实例,用于支持进一步的研究和开发,将当前对数学推理的关注扩展到不同的学科和领域。此外,我们提出了基于过程的多学科验证器(即BMMR-Verifier),用于对推理路径进行准确和细粒度的评估。对24个模型进行的广泛实验表明:(i)即使是SOTA模型(例如o3和Gemini-2.5-Pro)在BMMR-Eval上仍有很大的提升空间;(ii)推理模型表现出学科偏见,仅在特定科目上优于LMM;(iii)开源模型仍落后于其专有对应物;以及(iv)在BMMR-Train上进行微调可以缩小这一差距。此外,我们使用BMMR-Verifier进行了推理链分析和其他深入研究,揭示了LMM目前在多学科推理中面临的挑战。我们将发布数据,希望我们的工作能为社区提供见解和贡献。
查看 arXiv 页面查看 PDF

评论

Honglin GuoHonglin Guo
论文提交者

排行榜:https://guanyu615-bmmr-leaderboard.hf.space

image.png