ELV-Halluc: 评估长视频理解中的语义聚合幻觉

发表
luhaoluhao 提交
作者: luhaoHao Lu, wang jiahaoJiahao Wang, Yaolun ZhangYaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

摘要

视频多模态大语言模型 (Video-MLLMs) 在视频理解方面取得了显著进展。然而,它们仍然容易产生与视频输入不一致或无关的幻觉内容。以往的视频幻觉基准主要关注短视频,并将幻觉归因于强大的语言先验、缺失帧或视觉编码器引入的视觉语言偏差等因素。虽然这些原因确实解释了短视频中的大多数幻觉,但它们仍然过度简化了幻觉的原因。有时,模型会生成错误的输出,但具有正确的帧级语义。我们将这种幻觉称为语义聚合幻觉 (SAH),它发生在将帧级语义聚合到事件级语义组的过程中。鉴于 SAH 在长视频中由于多个事件之间日益增长的语义复杂性而变得尤为关键,因此有必要将这种幻觉的原因分离开来并进行彻底调查。为了解决上述问题,我们引入了 ELV-Halluc,这是第一个专门针对长视频幻觉的基准,能够系统地调查 SAH。我们的实验证实了 SAH 的存在,并表明其随着语义复杂性的增加而增加。此外,我们发现模型更容易在语义快速变化的视频中产生 SAH。此外,我们还讨论了缓解 SAH 的潜在方法。我们证明了位置编码策略有助于缓解 SAH,并进一步采用 DPO 策略来增强模型区分事件内部和跨事件语义的能力。为了支持这一点,我们整理了一个包含 8K 对对抗性数据的 数据集,并在 ELV-Halluc 和 Video-MME 上都取得了改进,包括 SAH 率大幅降低 27.7%。
查看 arXiv 页面查看 PDF

评论

luhaoluhao
论文作者
论文提交者

ELV-Halluc 现已发布!

我们很高兴地宣布 ELV-Halluc 的发布,以及 DPO 数据。🚀

📄 Arxiv 论文:https://arxiv.org/pdf/2508.21496

💻 Github:https://github.com/hlsv02/ELV-Halluc

我们希望我们的工作能够为视频大型语言模型的研究做出贡献。

欢迎 ⭐️ 关注、fork 并跟进我们的最新动态!