⏶65
科学家的第一次考试:通过感知、理解和推理探测MLLM的认知能力
发表
由
Dongzhan Zhou 提交
作者: Yuhao Zhou, Yiheng Wang, Xuming He, Ruoyao Xiao, Zhiwei Li, Qiantai Feng, Zijie Guo, Yuejin Yang, Hao Wu,
Wenxuan Huang, Jiaqi Wei, Dan Si, Xiuqi Yao, Jia Bu, Haiwen Huang, Tianfan Fu, Shixiang Tang, Ben Fei, Dongzhan Zhou, Fenghua Ling, Yan Lu,
Siqi Sun, Chenhui Li, Guanjie Zheng, Jiancheng Lv, Wenlong Zhang, Lei Bai

摘要
科学发现越来越依赖于基于信息密集型科学数据和特定领域专业知识的复杂多模态推理。在专家级科学基准的赋能下,科学多模态大型语言模型(MLLMs)有潜力在现实工作流程中显著增强这一发现过程。然而,当前的科学基准大多侧重于评估MLLMs的知识理解能力,导致对其感知和推理能力的评估不足。为了弥补这一差距,我们提出了科学家初考(SFE)基准,旨在通过三个相互关联的层面评估MLLMs的科学认知能力:科学信号感知、科学属性理解、科学比较推理。具体而言,SFE包含来自五个高价值学科的66个多模态任务中的830对经专家验证的VQA(视觉问答)对,涵盖三种问题类型。大量实验表明,当前最先进的GPT-4o和InternVL-3在SFE上的得分分别仅为34.08%和26.52%,这突显了MLLMs在科学领域有巨大的提升空间。我们希望在SFE中获得的见解将促进AI增强科学发现的进一步发展。
评论
你可以在 arXiv explained 上收听这项研究的音频解读:https://arxivexplained.com/papers/scientists-first-exam-probing-cognitive-abilities-of-mllm-via-perception-understanding-and-reasoning
🔬 MLLMs 能否掌握复杂的科学认知?
隆重推出 Scientists' First Exam (SFE)——一个开创性的基准,用于评估多模态大型语言模型在 5 个科学领域和 66 个高价值任务上的表现。与专注于知识理解的传统测试不同,SFE 的 3 层框架(信号感知 → 属性理解 → 比较推理)在真实科学数据和跨学科推理方面挑战模型。
🚀 主要发现:
· SOTA 模型在 SFE 的高级科学任务上得分仅约为 30% 📉,远远落后于人类专业知识 🔍
· 闭源模型表现优于开源模型 6-8%
· 模型在高阶推理 (L3) 中表现出 10%+ 的提升,但在知识理解 (L2) 中停滞不前 🧠
· 模型规模并不总是与科学能力相关——Qwen2.5-VL-72B 甚至不如其小型版本,这表明需要扩展科学数据以实现规模化。
📊 SFE 为基准测试人工智能以推动真实科学发现铺平了道路。深入探索 AI 驱动研究的未来!
📦 数据集和基准现已开源。
📚 阅读论文:https://arxiv.org/abs/2506.10521
👉 探索 SFE:https://prismax.opencompass.org.cn/
🔍 数据集:https://huggingface.co/datasets/PrismaX/SFE