⏶4
当语义误导视觉时:缓解大型多模态模型在场景文本检测和理解中的幻觉
发表
由
Yan Shu 提交
作者: Yan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe
摘要
大型多模态模型(LMM)在视觉感知和推理方面取得了令人瞩目的进展。然而,当面对视觉模糊或非语义的场景文本时,它们往往难以准确识别和理解其内容,经常生成语义上合理但视觉上不正确的答案,我们称之为语义幻觉。在这项工作中,我们调查了语义幻觉的深层原因,并发现了一个关键结论:大型语言模型(LLM)中对场景文本区域注意力更强的 Transformer 层,其产生语义幻觉的可能性更低。因此,我们提出了一个无需训练的语义幻觉缓解框架,该框架包含两个关键组件:(1) ZoomText,一种无需外部检测器即可识别潜在文本区域的粗到细策略;以及 (2) 接地层校正(Grounded Layer Correction),它自适应地利用来自较不易产生幻觉的层中的内部表示来指导解码,纠正非语义样本的幻觉输出,同时保留有意义样本的语义。为了实现严格的评估,我们引入了 TextHalu-Bench,一个包含 1,730 多个样本的基准,涵盖语义和非语义情况,并附有旨在探究模型幻觉的手动整理的问答对。大量实验表明,我们的方法不仅有效缓解了语义幻觉,而且在场景文本识别和理解的公共基准测试中也取得了优异的性能。
缓解多模态大模型中的语义幻觉