ObfusQAte:一个评估大语言模型在混淆事实问答上鲁棒性的提议框架

发表
Abhilekh BorahAbhilekh Borah 提交
作者: Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

摘要

大语言模型(LLM)的迅速普及极大地促进了能够进行事实性问答(QA)的公平人工智能系统的发展。然而,尚无已知研究测试大语言模型在面对问题的模糊化版本时的鲁棒性。为了系统地评估这些局限性,我们提出了一种名为 ObfusQAte 的新技术,并利用该技术推出了 ObfusQA——一个全面的、首创的、具有多层次模糊化设计的框架,旨在从三个不同维度检验大语言模型的能力:(i)命名实体间接指代,(ii)干扰项间接指代,以及(iii)上下文过载。通过捕捉语言中这些细微的差别,ObfusQA 为评估大语言模型的鲁棒性和适应性提供了一个全面的基准。我们的研究发现,当面对这些日益细致入微的变体时,大语言模型表现出失败或产生幻觉回答的倾向。为推动该方向的研究,我们公开发布了 ObfusQAte。
查看 arXiv 页面查看 PDF

评论

Abhilekh BorahAbhilekh Borah
论文提交者

本文介绍了 ObfusQAte,一个新颖的框架和数据集,用于系统地测试大型语言模型(LLM)在面对语义模糊的事实问题时的鲁棒性,揭示了性能显著下降,并强调了在间接、分散注意力和嘈杂的查询形式下推理的脆弱性。