明天它还会是真的吗?多语言常青问题分类以提高可信问答

发表
Maria MarinaMaria Marina 提交
作者: Sergey PletenevSergey Pletenev, Maria MarinaMaria Marina, IvanovNikolay Ivanov, daria galimzianovaDaria Galimzianova, Krayko NikitaNikita Krayko, Mikhail SalnikovMikhail Salnikov, Vasily KonovalovVasily Konovalov, Alexander Panchenko, Viktor MoskvoretskiiViktor Moskvoretskii

摘要

大型语言模型(LLMs)在问答(QA)任务中经常出现幻觉。一个关键但尚未充分探索的因素是问题的时间性——即问题是常青(答案随时间保持稳定)还是可变(答案会改变)的。在这项工作中,我们引入了EverGreenQA,这是第一个带有常青标签的多语言问答数据集,支持评估和训练。使用EverGreenQA,我们对12个现代LLM进行了基准测试,以评估它们是显式(通过口头判断)还是隐式(通过不确定性信号)地编码了问题的时间性。我们还训练了EG-E5,这是一种轻量级多语言分类器,在此任务上取得了最先进的性能。最后,我们展示了常青分类在三个应用中的实际效用:改进自我知识估计、过滤问答数据集以及解释GPT-4o的检索行为。
查看 arXiv 页面查看 PDF

评论

Maria MarinaMaria Marina
论文作者
论文提交者

大型语言模型(LLM)在问答(QA)任务中常出现幻觉。导致这一现象的一个关键但尚未充分探索的因素是问题的时效性——它们是常青问题(答案随时间保持稳定)还是可变问题(答案会发生变化)。在这项工作中,我们引入了EverGreenQA,这是首个带有常青标签的多语言问答数据集,支持评估和训练。利用EverGreenQA,我们对12个现代LLM进行了基准测试,以评估它们是否通过明确(通过口头判断)或隐式(通过不确定性信号)方式编码问题时效性。我们还训练了EG-E5,一个轻量级多语言分类器,在该任务上实现了最先进的(SoTA)性能。最后,我们展示了常青分类在三个应用中的实际效用:改进自知估计、过滤问答数据集以及解释GPT-4o的检索行为。

Maria MarinaMaria Marina
论文作者
论文提交者

GitHub:https://github.com/s-nlp/Evergreen-classification

Maria MarinaMaria Marina
论文作者
论文提交者

常青问题与非常青问题的清晰示例:

EG_main_leaves.png