Putnam-AXIOM:一个功能性和静态基准

发表
Brando MirandaBrando Miranda 提交
作者: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo

摘要

目前针对大型语言模型(LLM)的数学推理基准正接近饱和,有些已达到90%以上的准确率,并且日益受到训练集污染的损害。我们引入了 Putnam-AXIOM,这是一个包含 522 个大学水平竞赛问题的基准,这些问题来自著名的威廉·洛厄尔·普特南数学竞赛,以及 Putnam-AXIOM 变体,一个由程序化扰动变量和常数生成的 100 个功能变体的未见配套集。变体协议产生无限流的同样困难、未见的实例——从而产生一个抗污染的测试平台。在原始集合上,OpenAI 的 o1-preview(最强大的评估模型)得分 41.9%,但其准确率在配对变体上下降了 19.6%(相对下降 46.8%)。其余十八个模型也显示出相同的下降趋势,其中十个模型的 95% 置信区间不重叠。这些差距表明了记忆化,并突出了动态基准的必要性。我们用“教师强制准确率”(TFA)来补充“框式”准确率,这是一个轻量级指标,直接对推理轨迹进行评分并自动化自然语言证明评估。因此,Putnam-AXIOM 提供了一个严谨、抗污染的评估框架,用于评估 LLM 的高级数学推理能力。数据和评估代码已公开提供:https://github.com/brando90/putnam-axiom
查看 arXiv 页面查看 PDF

评论

Brando MirandaBrando Miranda
论文提交者

我们注意到许多用于 LLM 的数学推理基准要么已经饱和,要么容易受到污染,这使得很难判断新模型是否真的在推理方面有所改进。

Putnam-AXIOM (arXiv:2508.08292) 引入了:

  • 522 个普特南原始问题 (1959–2023)

  • 100 种功能变体以测试鲁棒性和抗污染性

  • 教师强制准确率 (TFA) 用于评估推理步骤,而不仅仅是答案

问题:您认为这种抗污染变体能否成为基准设计中的标准?为什么能或为什么不能?