⏶46
CMPhysBench:用于评估凝聚态物理领域大语言模型的基准测试
发表
由
Weida Wang 提交

作者:
Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng,
Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng,
Wei Ma, Jiaming Su, Xin Li,
Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng



摘要
我们推出 CMPhysBench,这是一个新颖的基准测试,旨在评估大型语言模型 (LLM) 在凝聚态物理学方面的熟练程度。CMPhysBench 由超过 520 个经过精心筛选的研究生水平的问题组成,涵盖了凝聚态物理学的代表性子领域和基础理论框架,例如磁性、超导性、强关联系统等。为了确保对问题解决过程的深入理解,我们专注于计算问题,要求 LLM 独立生成全面的解决方案。同时,我们利用基于树的表达式表示,引入了可扩展表达式编辑距离 (SEED) 分数,该分数提供细粒度(非二元)的信用评分,并能更准确地评估预测与真实值之间的相似度。我们的结果表明,即使是最好的模型 Grok-4,在 CMPhysBench 上的平均 SEED 分数也仅为 36,准确率也只有 28%,这凸显了其在这一实践和前沿领域相对于传统物理学存在显著的能力差距。代码和数据集可在 https://github.com/CMPhysBench/CMPhysBench 公开获取。
我们刚刚发布了全新的开源基准测试 CMPhysBench!
✨ 亮点:
🔬 520 道研究生级别的凝聚态物理问题 — 涵盖磁学、超导性、半导体和强关联系统
📖 精选自 17 本权威教科书,由博士生和博士后撰写和审阅
🧮 引入 SEED (可扩展表达式编辑距离) — 一种更智能的指标,可以为“几乎正确”的答案提供部分分数,适用于所有这些答案类型,而不是简单的对错评分
🤖 在 18 个主流大型语言模型 (GPT-4o, Claude 3.7, Gemini, Grok, LLaMA, Qwen, DeepSeek...) 上进行了测试 — 表现最好的模型 Grok-4 也只达到了 28% 的准确率!
🔥 关键启示:
大型语言模型在数学方面表现出色,但在凝聚态物理的硬核科学推理方面,仍然存在巨大的差距。
这就是我们构建 CMPhysBench 的原因 — 旨在推动人工智能在真实科学领域取得进步。
📂 数据集和代码均为开源 👉 [ https://github.com/CMPhysBench/CMPhysBench ]
加入我们,一起探索面向凝聚态物理的人工智能的下一个前沿!