⏶27
评《思维的错觉》:从问题复杂性视角认识推理模型的优点与局限
发表
由
Vaibhav Srivastav 提交

作者: C. Opus, A. Lawsen
摘要
舒贾伊等人 (2025) 报告称,大型推理模型 (LRMs) 在规划谜题上,当复杂性超出特定阈值时,会表现出“准确率崩溃”。我们表明,他们的发现主要反映了实验设计的局限性,而非根本性的推理失败。我们的分析揭示了三个关键问题:(1) 汉诺塔实验在报告的失败点上系统性地超出了模型的输出token限制,且模型在输出中明确承认了这些限制;(2) 作者的自动化评估框架未能区分推理失败和实际限制,导致对模型能力的误判;(3) 最令人担忧的是,他们的过河谜题基准中,当N > 5时,由于船只容量不足,包含了在数学上不可能的实例,然而模型因未能解决这些无法解决的问题而被判定为失败。当我们排除这些实验假象,通过请求生成函数而非详尽的移动列表时,对多个模型的初步实验表明,在先前被报告为彻底失败的汉诺塔实例上,模型表现出高准确率。这些发现强调了在评估人工智能推理能力时,严谨的实验设计的重要性。
克劳德对抗苹果研究员!