MathBode:LLM 数学推理的频域指纹

发表
Charles WangCharles Wang 提交
作者: Charles WangCharles L. Wang

摘要

AI 生成总结
MathBode 通过分析模型输出与精确解的频率解析指标,为大语言模型的数学推理提供诊断,揭示了系统性的低通滤波行为和相位滞后。
本文提出了 MathBode,一种用于大型语言模型(LLM)数学推理的动态诊断工具。MathBode 不采用一次性准确率评估,而是将每个参数化问题视为一个系统:我们对单个参数进行正弦驱动,并拟合模型输出和精确解的一阶谐波响应。这产生了可解释的、频率分辨的指标——增益(幅度跟踪)和相位(滞后)——形成 Bode 式指纹。在五个闭式函数族(线性方程求解、比例/饱和、复利、2x2 线性系统、相似三角形)中,该诊断工具揭示了精度本身所隐藏的系统性低通行为和不断增长的相位滞后。我们将几种模型与校准仪器的符号基线(G ≈ 1,φ ≈ 0)进行比较。结果根据动态性能将前沿模型与中等模型区分开来,提供了一个紧凑、可复现的协议,通过对推理保真度和一致性的可操作测量来补充标准基准。我们开源了数据集和代码,以促进进一步的研究和应用。
查看 arXiv 页面查看 PDF

评论

Charles WangCharles Wang
论文作者
论文提交者

MathBode 基准通过将参数化数学问题转化为时变系统,来衡量 LLM 的动态推理能力。我们正弦扫描一个问题参数,并读取增益(幅度跟踪)和相位(推理延迟),类似于控制理论中的 Bode 图。数据集:跨越 5 个问题系列的 47,040 个测试点,支持精细的频率响应分析。