⏶1
解释自动化事实核查中的不确定性来源
发表
由
Jingyi Sun 提交
作者: Jingyi Sun, Greta Warren, Irina Shklovski, Isabelle Augenstein
摘要
理解模型对其预测不确定性的来源对于有效的人机协作至关重要。先前的工作提出了使用数值不确定性或委婉表达(“我不确定,但是……”),这些方法无法解释由冲突证据引起的不确定性,导致用户无法解决分歧或信任输出。我们引入了 CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations),这是第一个生成自然语言解释模型不确定性的框架,其方法是 (i) 以无监督方式识别文本片段之间暴露论点-证据冲突或证据间冲突与一致性的关系,这些关系驱动着模型的预测不确定性,以及 (ii) 通过提示和注意力引导生成解释,将这些关键交互 verbally 表达出来。在三个语言模型和两个事实核查数据集上的实验表明,与没有跨度交互指导的提示生成不确定性解释相比,CLUE 生成的解释对模型的不确定性更忠实,与事实核查决策更一致。人类评估者认为我们的解释比基线方法更有帮助、更具信息量、更少冗余且与输入更具逻辑一致性。CLUE 不需要微调或架构更改,使其对于任何白盒语言模型都可以即插即用。通过将不确定性明确地与证据冲突联系起来,它为事实核查提供了实际支持,并且易于推广到需要对复杂信息进行推理的其他任务。
理解模型预测不确定性的来源对于有效的人工智能协作至关重要。先前的工作提出使用数值不确定性或模糊词语(例如“我不确定,但是……”),但这未能解释由冲突证据引起的不确定性,导致用户无法解决分歧或信任输出。我们引入了 CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations),这是第一个生成模型不确定性自然语言解释的框架,它通过 (i) 以无监督方式识别文本片段之间的关系,揭示驱动模型预测不确定性的主张-证据或证据间冲突与一致性,以及 (ii) 通过提示和注意力引导生成将这些关键交互口头化的解释。在三种语言模型和两个事实核查数据集上的实验表明,与没有片段交互指导的提示相比,CLUE 生成的解释对模型的不确定性更忠实,并且与事实核查决策更一致。人工评估者认为我们的解释比基线方法更有帮助、信息更丰富、更少冗余且与输入逻辑上更一致。CLUE 不需要微调或架构更改,使其可即插即用于任何白盒语言模型。通过将不确定性与证据冲突明确关联,它为事实核查提供了实际支持,并且很容易推广到其他需要对复杂信息进行推理的任务。