⏶18
对比注意力聚焦:增强视觉语言模型的视觉推理能力
发表
由
YuyaoGe 提交

作者:
Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng

摘要
AI 生成总结
用于视觉增强的对比注意力提炼(CARVE)通过注意力对比提取任务相关的视觉信号,解决了视觉复杂性和注意力机制的问题,从而提高了 VLM 的性能。视觉语言模型(VLM)在各种视觉任务中取得了显著的成功,但在复杂的视觉环境中,它们的性能会下降。现有的增强方法需要额外的训练,依赖外部分割工具,或在粗粒度层面操作,它们忽略了VLM内部固有的能力。为了弥合这一差距,我们研究了VLM的注意力模式,并发现:(1)视觉复杂性与注意力熵高度相关,负面影响推理性能;(2)注意力从浅层中的全局扫描逐渐细化到深层中的聚焦收敛,收敛程度由视觉复杂性决定。(3)理论上,我们证明了通用查询和任务特定查询之间的注意力图的对比,能够将视觉信号分解为语义信号和视觉噪声分量。基于这些见解,我们提出了对比注意力细化以增强视觉(CARVE),这是一种无需训练的方法,通过像素级别的注意力对比来提取与任务相关的视觉信号。大量实验表明,CARVE持续提高了性能,在开源模型上取得了高达75%的提升。我们的工作为视觉复杂性与注意力机制之间的相互作用提供了关键见解,为通过对比注意力提高视觉推理提供了高效的途径。
视觉语言模型的固有能力非常强大且已被忽视。我们的工作为视觉复杂性和注意力机制之间的相互作用提供了关键见解,为通过对比注意力提高视觉推理提供了一条有效的途径。