像素对比先验:通过视觉反事实控制视觉-语言模型中的知识先验

发表
Michal GolovanevskyMichal Golovanevsky 提交
作者: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff

摘要

多模态大型语言模型(Multimodal Large Language Models, MLLMs)在视觉问答等任务上表现出色,但目前尚不清楚它们的推理是更多地依赖于记忆的世界知识还是输入图像中存在的视觉信息。为了探究这一点,我们引入了Visual CounterFact,这是一个新的视觉真实反事实数据集,它使世界知识先验(例如,红色草莓)与视觉输入(例如,蓝色草莓)直接冲突。使用Visual CounterFact,我们发现模型预测最初反映了记忆的先验知识,但在中后期层中转向视觉证据。这种动态揭示了两种模态之间的竞争,视觉输入最终在评估期间覆盖了先验知识。为了控制这种行为,我们提出了像素与先验(Pixels Versus Priors, PvP)引导向量,这是一种通过激活层干预来控制模型输出偏向世界知识或视觉输入的机制。平均而言,PvP成功地将92.5%的颜色预测和74.6%的尺寸预测从先验知识转移到反事实。总之,这些发现为解释和控制多模态模型中的事实行为提供了新工具。
查看 arXiv 页面查看 PDF

评论

Michal GolovanevskyMichal Golovanevsky
论文提交者

多模态大型语言模型(MLLMs)在视觉问答等任务上表现出色,但尚不清楚它们的推理更多地依赖于记忆的世界知识还是输入图像中存在的视觉信息。为了探究这一点,我们引入了Visual CounterFact,这是一个新的视觉真实反事实数据集,它使世界知识先验(例如,红色草莓)与视觉输入(例如,蓝色草莓)直接冲突。使用Visual CounterFact,我们发现模型预测最初反映了记忆的先验知识,但在中后期层中转向视觉证据。这种动态揭示了两种模态之间的竞争,视觉输入最终在评估过程中覆盖了先验知识。为了控制这种行为,我们提出了“像素对抗先验”(Pixels Versus Priors,PvP)转向向量,这是一种通过激活层干预将模型输出引导至世界知识或视觉输入的机制。平均而言,PvP成功地将92.5%的颜色预测和74.6%的尺寸预测从先验知识转向反事实。总之,这些发现为解释和控制多模态模型中的事实行为提供了新工具。