⏶8
SeePhys:“看”有助于“思考”吗?——基于视觉的物理推理基准测试
发表
由
Jiaqi Chen 提交
作者: Kun Xiang,
Heng Li, Terry Jingchen Zhang,
Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang

摘要
我们提出了 SeePhys,一个大规模多模态基准,用于评估 LLM 在物理问题上的推理能力,问题范围从中学到博士资格考试。该基准涵盖了物理学科的 7 个基础领域,包含了 21 类高度异构的图表。与之前视觉元素主要作为辅助用途的工作不同,我们的基准具有相当比例的视觉关键问题(75%),这些问题需要提取视觉信息才能获得正确解决方案。通过广泛评估,我们观察到即使是最先进的视觉推理模型(例如,Gemini-2.5-pro 和 o4-mini)在我们的基准上准确率也低于 60%。这些结果揭示了当前大型语言模型在视觉理解能力方面的根本挑战,特别是在:(i) 建立图表解释与物理推理之间的严格耦合,以及 (ii) 克服它们对文本线索作为认知捷径的持续依赖。

AI 真的能理解物理吗?用最新发布的 SeePhys 基准测试来检验你的模型!
SeePhys 基准测试涵盖了从中学到博士资格考试的 2,000 个视觉-文本多模态物理问题,系统地评估 LLMs/MLLMs 在结合复杂科学图表和理论推导的任务中的表现。实验表明,即使是 Gemini-2.5-Pro 和 o4-mini 等 SOTA 模型,准确率也低于 55%,在简单的中学级别问题上错误率超过 30%,凸显了多模态推理中的重大挑战。
该基准现已开放评估,可在 ICML 2025 AI for MATH 研讨会上进行测试。欢迎学术界和工业界的团队测试他们的模型!
🔗 关键链接:
📜论文:http://arxiv.org/abs/2505.19099
⚛️项目页面:https://seephys.github.io/
🏆挑战提交:https://www.codabench.org/competitions/7925/
➡️竞赛指南:https://sites.google.com/view/ai4mathworkshopicml2025/challenge
如果此项目对您有帮助,请点赞!