大型视觉-语言模型如何看到图像中的文本?揭示OCR头部的独特作用

发表
ingeolbaekingeolbaek 提交
作者: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee

摘要

尽管大型视觉语言模型(LVLM)取得了显著进展,但仍存在差距,特别是在其可解释性以及如何定位和解释图像中的文本信息方面。在本文中,我们探索了各种LVLM,以识别负责从图像中识别文本的特定“头部”(heads),我们将其称为光学字符识别头部(OCR Head)。我们关于这些“头部”的发现如下:(1) 不那么稀疏:与先前的检索“头部”不同,大量“头部”被激活以从图像中提取文本信息。(2) 性质显著不同:OCR“头部”具有与一般检索“头部”显著不同的属性,其特征相似度较低。(3) 静态激活:这些“头部”的激活频率与其OCR分数密切相关。我们通过将思维链(Chain-of-Thought, CoT)应用于OCR“头部”和传统的检索“头部”,以及通过遮蔽这些“头部”,在下游任务中验证了我们的发现。我们还证明,在OCR“头部”内重新分配“汇聚令牌”(sink-token)的值可以提高性能。这些见解提供了对LVLM处理图像中嵌入的文本信息的内部机制的更深入理解。
查看 arXiv 页面查看 PDF

评论

ingeolbaekingeolbaek
论文提交者