⏶14
关于视觉令牌的认知不确定性对大型视觉-语言模型中对象幻觉的影响
发表
由
Hoigi Seo 提交
作者:
Hoigi Seo, Dong Un Kang,
Hyunjin Cho, Joohoon Lee, Se Young Chun
摘要
AI 生成总结
一种通过识别和屏蔽视觉编码器中不确定的视觉标记来减少大型视觉语言模型中物体幻觉的方法。大型视觉语言模型(LVLM)将视觉编码器(VE)与大型语言模型集成,在各种任务中取得了显著成功。然而,LVLM仍然面临一些关键挑战,例如对象幻觉,即生成输入图像中不存在的对象描述。在这里,我们认为VE中不确定的视觉令牌是导致对象幻觉的关键因素。我们的统计分析发现,具有高认知不确定性的视觉令牌与幻觉的发生之间存在正相关。此外,我们从理论和实践上证明,在VE的早期层中,在小的对抗性扰动下表现出大表示偏差的视觉令牌预示着高认知不确定性。基于这些发现,我们提出了一种简单而有效的策略,通过仅修改VE来减轻对象幻觉。我们的方法包括一种使用对抗性扰动来有效识别不确定视觉令牌的代理方法,以及一种在VE中间层的自注意力过程中掩蔽这些不确定视觉令牌的方法,从而抑制它们对视觉编码的影响,从而减轻幻觉。广泛的实验表明,我们的方法显著减少了LVLM中的对象幻觉,并且可以与其他现有技术协同工作。
本文研究了对象幻觉问题——即大型视觉语言模型(LVLM)描述了实际未出现在图像中的对象。作者们发现,视觉编码器(VE)中的视觉标记的认知不确定性是导致这些幻觉的关键因素。
为了解决这个问题,他们提出了一种简单而有效的方法,该方法: • 使用对抗性扰动检测不确定的视觉标记 🧠⚡ • 在视觉编码器的自注意力过程中掩蔽这些不确定的标记 🖼️🔍 • 无需重新训练即可高效运行,并且可以与其他缓解技术结合使用
在 CHAIR、POPE 和 AMBER 等基准测试上的广泛实验表明,幻觉率显著降低,同时保持了高质量的字幕。这种方法为视觉不确定性如何影响模型可靠性提供了新的见解,并为更值得信赖的 LVLM 提供了轻量级的解决方案 🤖✨。