评《思维的错觉》:从问题复杂性视角认识推理模型的优点与局限

发表
Vaibhav SrivastavVaibhav Srivastav 提交
作者: C. Opus, A. Lawsen

摘要

舒贾伊等人 (2025) 报告称,大型推理模型 (LRMs) 在规划谜题上,当复杂性超出特定阈值时,会表现出“准确率崩溃”。我们表明,他们的发现主要反映了实验设计的局限性,而非根本性的推理失败。我们的分析揭示了三个关键问题:(1) 汉诺塔实验在报告的失败点上系统性地超出了模型的输出token限制,且模型在输出中明确承认了这些限制;(2) 作者的自动化评估框架未能区分推理失败和实际限制,导致对模型能力的误判;(3) 最令人担忧的是,他们的过河谜题基准中,当N > 5时,由于船只容量不足,包含了在数学上不可能的实例,然而模型因未能解决这些无法解决的问题而被判定为失败。当我们排除这些实验假象,通过请求生成函数而非详尽的移动列表时,对多个模型的初步实验表明,在先前被报告为彻底失败的汉诺塔实例上,模型表现出高准确率。这些发现强调了在评估人工智能推理能力时,严谨的实验设计的重要性。
查看 arXiv 页面查看 PDF

评论

Vaibhav SrivastavVaibhav Srivastav
论文提交者

克劳德对抗苹果研究员!

James NesfieldJames Nesfield

解决这些问题的算法在许多计算机科学的基础教材中都有提及,您如何验证大型语言模型 (LLM) 实际上是在推理这些问题,而不是重复记忆的解决方案?

Benjamin BabikBenjamin Babik

当渡河谜题中的物品被替换为意想不到的物品时,Sonnet 4 无法解决三件物品的渡河谜题。我不明白为什么人们如此急于操纵读者,只为了能声称大型语言模型(LLMs)能够推理?为什么我们不能只是接受它们有用但不会思考的本质?为什么我们不能那样做?

Brent LewisBrent Lewis

我不同意。首先,函数是对过程的描述,而不是过程的执行。其次,token 限制是模型的局限性,而不是论文的局限性。我承认,实验可以设计成展示当前状态并询问下一步动作,从而避免这种限制。尽管如此,该实验成功地测试了执行逻辑过程的能力。

Greg SliwoskiGreg Sliwoski

模型生成代码来回答,因为那段代码在它的训练数据中出现了10次以上