⏶35
PHYBench:大语言模型的物理感知与推理综合评估
发表
由
SHI QIU 提交

作者:
Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei,
Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren,
Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu


摘要
我们引入了PHYBench,这是一个新颖、高质量的基准测试,旨在评估大型语言模型(LLMs)在物理情境中的推理能力。PHYBench包含500个基于现实世界物理场景的精心设计的物理问题,旨在评估模型理解和推理真实物理过程的能力。该基准测试涵盖力学、电磁学、热力学、光学、近代物理和高等物理等领域,难度跨越高中练习、大学问题乃至物理奥林匹克竞赛难题。此外,我们提出了一种新颖的评估指标:表达式编辑距离(EED)评分。该评分基于数学表达式之间的编辑距离,能够有效捕捉模型推理过程和结果上的差异,超越了传统的二元评分方法。我们在PHYBench上评估了各种LLMs,并将其性能与人类专家进行了比较。我们的结果表明,即使是目前最先进的推理模型,在复杂物理推理情境中的表现也显著落后于人类专家,这突显了它们的局限性以及亟待改进之处。我们的基准测试结果和数据集已在 https://phybench-official.github.io/phybench-demo/ 公开提供。
📄 论文链接:
arXiv
AlphaXiv
🌐 网站:
PHYBench 官方演示
📦 数据集:
Hugging Face – PHYBench
📰 被 Hugging Face 日报收录
我们自豪地推出由北京大学物理学院倾力打造的高质量物理学推理基准测试 PHYBench。
PHYBench 包含 500 道精心策划、极具挑战性的物理问题,旨在严格评估模型对物理概念的真正理解及其进行复杂推理的能力。
与依赖多项选择或简单数值答案的传统基准测试不同,PHYBench 采用基于表达式的答案,这对物理竞赛的参与者来说非常熟悉。为了更有效地评估准确性,我们引入了表达式编辑距离 (EED)——模型的答案越接近标准答案表达式,得分越高。这种方法将样本效率提高了 200%,使得 500 个问题相当于超过 1500 个采用二元评分的问题。
我们的发现表明,即使是迄今为止最强大的推理模型——Gemini 2.5 Pro——也仅能达到 36.9% 的准确率,而人类专家在同一基准测试上的准确率超过 60%。
该项目是由北京大学物理学院及合作院系的 180 名学生共同努力的成果,历时一个半月开发完成。
我们已公开发布了数据集和网站,热烈欢迎大家关注、引用和分享 PHYBench。让我们一起推动人工智能在物理学推理领域的边界!