⏶4
SKYLENAGE技术报告:面向多层级数学评估的数学推理和竞赛创新基准
发表
由
taesiri 提交

作者: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
摘要
AI 生成总结
SKYLENAGE 基准测试评估了 LLM 在数学推理上的表现,揭示了不同教育水平之间的性能差距和天花板效应。大型语言模型(LLM)在许多公共数学套件上表现出色,但数学领域的前沿分离日益受到上限效应的困扰。我们提出了两个互补的基准:SKYLENAGE-ReasoningMATH,一个包含 100 个项目的、结构感知诊断集,具有每个项目的长度、数值密度和符号复杂度的元数据;以及 SKYLENAGE-MATH,一个包含 150 个项目的竞赛风格套件,涵盖高中到博士的四个阶段,采用七个学科分类。我们在单一设置下评估了十五个当代 LLM 变体,并分析了学科 x 模型和年级 x 模型性能。在竞赛套件上,最强的模型达到了 44%,亚军达到了 37%;准确率从高中到博士呈下降趋势,而顶级系统在博士到高中阶段的保留率接近 79%。在推理集上,最佳模型总体达到了 81%,最难的切片结果显示领导者和中等级别之间存在明显的稳健性差距。总之,我们发布了 SKYLENAGE-ReasoningMATH 并报告了 SKYLENAGE-MATH 的汇总结果;合起来,SKYLENAGE 提供了一个困难的、以推理为中心且覆盖广泛的数学基准,具有校准的难度和丰富的元数据,可作为未来数学推理评估的参考基准。
大型语言模型 (LLM) 现在在许多公开的数学套件上表现出色,但数学前沿的区分日益受到天花板效应的影响。我们提出了两个互补的基准:SKYLENAGE-ReasoningMATH,一个包含 100 个项目的、结构感知的诊断集,具有每个项目的长度、数值密度和符号复杂度的元数据;以及 SKYLENAGE-MATH,一个 150 个项目的竞赛风格套件,涵盖高中到博士的四个阶段,分为七个学科。我们在单一设置下评估了十五种当代 LLM 变体,并分析了学科 x 模型和年级 x 模型性能。在竞赛套件上,最强的模型达到了 44%,亚军达到了 37%;准确率从高中到博士呈下降趋势,而顶级系统的博士到高中保留率接近 79%。在推理集上,最好的模型总体达到了 81%,最难的切片结果揭示了领导者与中层之间明显的稳健性差距。总而言之,我们发布了 SKYLENAGE-ReasoningMATH 并报告了 SKYLENAGE-MATH 的汇总结果;SKYLENAGE 提供了一个困难、以推理为中心且覆盖广泛的数学基准,具有校准的难度和丰富的元数据,可作为未来数学推理评估的参考基准。