使用大语言模型求解不等式证明

发表
Pan LuPan Lu 提交
作者: Jiayi Sheng, Luna Lyu, Jikai Jin, Tony Xia, Alex Gu, James Zou, Pan Lu

摘要

不等式证明在众多科学和数学领域至关重要,它考验着发现紧密界限和战略性应用定理等高级推理能力。这使得它成为大型语言模型(LLMs)一个独特且极具挑战性的前沿领域,其提供的洞察力超越了一般的数学问题解决。现有数据集的稀缺性、合成性或过于严格的正式性阻碍了该领域的进展。为解决此问题,我们提出了一种非正式但可验证的任务表述,将不等式证明重构为两个可自动检查的子任务:界限估计和关系预测。在此基础上,我们发布了IneqMath,这是一个由专家精心策划的奥林匹克竞赛级别不等式数据集,包含一个测试集和丰富的训练语料库,其中包含了逐步解题过程和定理注释。我们还开发了一种新颖的“LLM即评判者”评估框架,该框架结合了一个最终答案评判者和四个逐步评判者,旨在检测常见的推理缺陷。对IneqMath上29个领先LLM进行的系统评估揭示了一个惊人的事实:即使是像o1这样的顶级模型,在逐步审查下的整体准确率也低于10%;这与它们仅考虑最终答案等效性的准确率相比,下降了高达65.5%。这一差异暴露出脆弱的演绎链,以及当前LLM在仅仅找到答案和构建严谨证明之间存在的关键鸿沟。扩大模型规模和增加测试时计算量对整体证明正确性的提升有限。相反,我们的研究结果强调了定理引导推理和自我完善等有前景的研究方向。代码和数据可在https://ineqmath.github.io/获取。
查看 arXiv 页面查看 PDF
使用大语言模型求解不等式证明

评论

Pan LuPan Lu
论文提交者

您是否曾好奇大语言模型(LLM)是真正理解数学证明,还是仅仅猜测答案?🤔 我们针对 IneqMath 的全新52页研究深入探讨了解决竞赛级不等式证明的课题!

我们引入了:

1️⃣ 一种新颖的“非正式但可验证”任务设定——使复杂证明对大语言模型而言易于处理,同时仍可被检查。

2️⃣ IneqMath:首个同类专家精心策划的基准数据集,包含竞赛级不等式、逐步解决方案和定理标注。

3️⃣ 一种创新的LLM判官框架,它不仅检查最终答案,还仔细审查每个推理步骤中的常见缺陷。

🔥 重大发现:当我们不仅仅关注最终答案时,即使是顶级大语言模型(如o1和Grok 3 mini)的准确率也骤降高达65.5%(整体低于10%!)。这揭示了一个关键差距:大语言模型通常擅长找到答案,但在构建严谨、可靠的证明方面仍力不从心。

我们的工作揭示了挑战,并指明了像定理引导推理等有前景的方向。

论文:https://arxiv.org/abs/2506.07927

项目:https://ineqmath.github.io/

代码:https://github.com/lupantech/ineqmath

数据:https://huggingface.co/datasets/AI4Math/IneqMath

排行榜:https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

可视化:https://ineqmath.github.io/#visualization