重新构想:用于推理评估的符号基准合成

发表
KDKD 提交
作者: Xinnuo Xu, Rachel Lawrence, KDKshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez

摘要

近期的大型语言模型(LLMs)在推理基准测试中报告了高准确率。然而,目前仍不清楚观察到的结果是源于真正的推理能力,还是仅仅来自对训练集的统计性回忆。受因果关系阶梯(Pearl, 2009)及其三个层次(关联、干预和反事实)的启发,本文引入了 RE-IMAGINE,这是一个用于描述LLMs推理能力层级结构的框架,同时还提供了一个自动化管道,用于生成不同层级的问题变体。通过改变中间符号表示中的问题,RE-IMAGINE 可以生成任意数量的、仅凭记忆无法解决的问题。此外,该框架具有通用性,可以应用于不同的推理领域,包括数学、代码和逻辑。我们通过四个广泛使用的基准测试来演示我们的框架,以评估多个LLM家族,并观察到当模型被查询问题变体时,性能有所下降。这些评估表明,过去的性能在一定程度上依赖于统计性回忆,并为针对推理层级中各项技能的进一步研究打开了大门。
查看 arXiv 页面查看 PDF
重新构想:用于推理评估的符号基准合成

评论

KDKD
论文作者
论文提交者

causal_ladder.webp

KDKD
论文作者
论文提交者

大多数基准测试只有在大型语言模型表现不佳后,才会将某个任务称为“困难”。这本末倒置了:结果定义了难度!!

我们反其道而行之。我们从 Judea Pearl 的因果关系阶梯开始:关联(Level-1)、干预(Level-2)、反事实(Level-3)。这个来自因果关系文献中的思想描述了人类能够达到的推理水平。我们将这些相同的水平视为大型语言模型的明确目标。

基于这一理论,我们构建了 RE-IMAGINE,这是一个系统,它在每个级别重写现有基准问题。新版本无法通过记忆模式来解决,因此它们能更公平地测试真实的推理能力。这涵盖了数学、代码和逻辑。

这表明,基于因果关系的推理观提供了一种更可靠的衡量推理能力的方法