⏶48
PhyX: 你的模型是否具备物理推理的“智慧”?
发表
由
Taki WU 提交
作者:
Hui Shen,
Taiqiang Wu,
Qi Han, Yunta Hsieh,
Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao,
Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong



摘要
现有基准未能捕捉到智能的一个关键方面:物理推理,即结合领域知识、符号推理和对现实世界约束的理解的综合能力。为了弥补这一差距,我们引入了 PhyX:第一个旨在评估模型在视觉场景中进行物理推理能力的大规模基准。PhyX 包括 3K 个精心策划的多模态问题,涵盖 6 种推理类型,跨越 25 个子领域和 6 个核心物理领域:热力学、电磁学、力学、现代物理、光学以及波&声学。在我们的综合评估中,即使是最先进的模型在物理推理方面也面临显著困难。GPT-4o、Claude3.7-Sonnet 和 GPT-o4-mini 的准确率分别仅为 32.5%、42.2% 和 45.8%——与人类专家相比,性能差距超过 29%。我们的分析揭示了当前模型的关键局限性:过度依赖记忆的学科知识、过度依赖数学公式,以及停留在表面水平的视觉模式匹配而非真正的物理理解。我们通过细粒度统计、详细案例研究和多种评估范式提供了深入分析,以全面考察物理推理能力。为了确保可复现性,我们基于 VLMEvalKit 等广泛使用的工具包实现了一个兼容的评估协议,支持一键评估。
评论
论文作者
论文提交者
项目主页: https://phyx-bench.github.io/
代码: https://github.com/NastyMarcus/PhyX
论文: https://arxiv.org/abs/2505.15929
本文介绍了 PHYX:首个旨在评估模型在视觉场景中进行物理学基础推理能力的大规模基准测试。PHYX 包括 3000 个精心策划的多模态问题,涵盖 6 种推理类型,跨越 25 个子领域和 6 个核心物理领域:热力学、电磁学、力学、现代物理学、光学以及波与声学。