HalluSegBench: 反事实视觉推理用于分割幻觉评估

发表
Yifan ShenYifan Shen 提交
作者: Xinzhuo Li, Adheesh JuvekarAdheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini LourentzouIsmini Lourentzou

摘要

近期视觉语言分割的进展显著提升了视觉接地理解(grounded visual understanding)。然而,这些模型常常通过为图像内容中不存在的物体生成分割掩码,或错误标记不相关区域来表现出幻觉。现有的分割幻觉评估协议主要侧重于标签或文本幻觉,而未操纵视觉上下文,这限制了它们诊断关键故障的能力。因此,我们引入了 HalluSegBench,这是首个专门为通过反事实视觉推理来评估视觉接地中的幻觉而设计的基准。我们的基准包含一个新颖的数据集,其中包含 1340 对反事实实例对,涵盖 281 个独特的对象类别,以及一套新引入的指标,用于量化在视觉连贯场景编辑下幻觉的敏感度。在 HalluSegBench 上对最先进的视觉语言分割模型进行的实验表明,视觉驱动的幻觉比标签驱动的幻觉更为普遍,模型通常会坚持错误的分割,这突出表明需要反事实推理来诊断接地的忠实度。
查看 arXiv 页面查看 PDF

评论

Yifan ShenYifan Shen
论文提交者

视觉语言分割的最新进展显著提升了基于地面的视觉理解能力。然而,这些模型常常表现出幻觉,即为图像内容中不存在的对象生成分割掩码,或错误地标记不相关的区域。现有的分割幻觉评估协议主要侧重于标签或文本幻觉,而没有操纵视觉上下文,这限制了它们诊断关键故障的能力。鉴于此,我们引入了 HalluSegBench,这是第一个专门旨在通过反事实视觉推理来评估视觉接地(grounding)中幻觉的基准。我们的基准包含一个新颖的数据集,其中包含 1340 对反事实实例,涵盖 281 个独特的对象类别,以及一套新引入的指标,用于量化在视觉连贯场景编辑下幻觉的敏感性。在 HalluSegBench 上对最先进的视觉语言分割模型进行的实验表明,视觉驱动的幻觉比标签驱动的幻觉更为普遍,模型常常在错误的分割中持续存在,这凸显了需要反事实推理来诊断接地保真度(grounding fidelity)。