⏶6
StatEval:统计学领域大型语言模型的全面基准测试
发表
由
Runpeng Dai 提交
作者: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu,
Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
摘要
AI 生成总结
StatEval 是一个全面的统计推理基准,涵盖基础性和研究性问题,并突出了当前大型语言模型在该领域的局限性。大型语言模型(LLMs)在数学和逻辑推理方面取得了显著进展,但统计学作为一门独特的、综合性的学科,在基准测试中仍未得到充分探索。为了弥补这一不足,我们引入了StatEval,这是第一个专门针对统计学的全面基准测试,涵盖了各个难度级别的广度和深度。StatEval包含13,817个基础问题,涵盖了本科和研究生的课程内容,以及从顶级期刊中提取的2374个研究级别的证明任务。为了构建基准测试,我们设计了一个可扩展的多智能体流水线,并辅以人工反馈验证,实现了大规模问题提取、重写和质量控制的自动化,同时确保了学术严谨性。我们还提出了一个强大的评估框架,适用于计算和证明类任务,能够对推理能力进行精细评估。实验结果表明,在研究级别的难题上,GPT5-mini等闭源模型的得分低于57%,而开源模型的表现则更低。这些发现凸显了统计推理的独特挑战以及当前LLMs的局限性。我们希望StatEval能够成为推动大型语言模型统计智能发展的严谨基准测试。所有数据和代码均可在我们的网站上获取:https://stateval.github.io/。

大型语言模型 (LLM) 在数学和逻辑推理方面取得了显著的进步,但统计学作为一个独特且综合性的学科,在基准测试方面仍未得到充分探索。为了弥补这一差距,我们推出了 StatEval,这是第一个专门针对统计学的综合基准测试,涵盖了不同难度的广度和深度。StatEval 包含 13,817 个基础问题,涵盖了本科和研究生课程,以及从顶级期刊中提取的 2374 个研究级别的证明任务。为了构建基准测试,我们设计了一个可扩展的多智能体流水线,并结合了人工干预验证,实现了大规模问题提取、重写和质量控制的自动化,同时确保了学术严谨性。我们还提出了一种针对计算和证明任务的稳健评估框架,能够对推理能力进行细粒度评估。实验结果表明,虽然 GPT5-mini 等闭源模型在研究级别问题上的得分低于 57%,而开源模型的表现则明显更低。这些发现凸显了统计推理的独特挑战以及当前 LLM 的局限性。我们期望 StatEval 能成为推动大型语言模型统计智能的严格基准测试。所有数据和代码均可在我们的 web 平台 https://stateval.github.io/ 上获取。