⏶5
RiddleBench:一个用于大型语言模型的新型生成推理基准
发表
由
Deepon 提交
作者:
Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre
摘要
AI 生成总结
RiddleBench 是一个包含 1737 个谜题的基准测试集,它揭示了当前最先进的语言模型在基本能力上的弱点,包括幻觉级联和糟糕的自我纠正能力,凸显了对更强健推理能力的需求。大型语言模型在许多已有的推理基准上表现出色。然而,这些基准主要评估的是结构化技能,如定量问题解决,而对于评估作为人类智能核心的灵活、多方面的推理能力则存在空白。这些能力要求将逻辑推导与空间感知和约束满足相结合,而当前的评估方法无法很好地衡量这一点。为了解决这个问题,我们引入了 RiddleBench,这是一个包含 1737 个具有挑战性的英文谜题的基准,旨在探究这些核心推理能力。对最先进模型在 RiddleBench 上的评估显示出其根本性的弱点。即使是像 Gemini 2.5 Pro、o3 和 Claude 4 Sonnet 这样的顶级专有模型,其准确率也仅略高于 60%(分别为 60.30%、63.37% 和 63.16%)。进一步的分析揭示了深层次的失败,包括幻觉级联(接受其他模型的错误推理)以及由于强烈的自我确认偏见导致的自我纠正能力差。它们的推理也很脆弱,当约束条件重新排序或引入无关信息时,性能会显著下降。RiddleBench 不仅是诊断这些问题的工具,也是指导开发更强大、更可靠语言模型的资源。
添加了论文