⏶2
跳跃、略过与过度思考:诊断推理模型在多跳分析中失误的原因
发表
由
Reshmi Ghosh 提交
作者: Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu,
Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan
摘要
推理模型的出现及其在实用 AI 聊天机器人中的整合,在解决需要复杂多步思维过程的高级数学、深度搜索和提取式问答问题方面取得了突破。然而,对这些模型比通用语言模型更容易产生幻觉的原因仍缺乏完整理解。在这项调查研究中,我们系统性地探讨了当代语言模型在多跳问答任务中的推理失败。我们引入了一种新颖细致的错误分类框架,该框架从三个关键维度检查失败:所涉及的源文档的多样性和独特性(“跳数”)、捕获相关信息的完整性(“覆盖范围”)以及认知效率低下(“过度思考”)。通过严谨的人工标注,辅以互补的自动化指标,我们的探索揭示了通常被以准确率为中心的评估所掩盖的复杂错误模式。这种调查方法提供了对当前模型认知局限性的更深入见解,并为未来语言建模工作中增强推理的忠实性、透明度和鲁棒性提供了可操作的指导。
诊断多跳抽取式问答数据集中推理模型失败的论文