当模态冲突时:单模态推理的不确定性如何支配多模态大模型的偏好动态

发表
Yang ShiYang Shi 提交
作者: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang ShiYang Shi, Haotian Wang, Di Wang, Lijie Hu

摘要

AI 生成总结
一个框架将多模态大型语言模型中的模态跟随分解为相对推理不确定性和固有模态偏好,从而深入了解模型如何解决冲突信息。
多模态大型语言模型(MLLMs)在不同模态提供矛盾信息时必须解决冲突,我们将这一过程称为模态跟随。以往的工作仅通过粗略的数据集级别统计数据来衡量这种行为,忽略了模型在单模态推理中的置信度影响。本文引入了一个新框架,将模态跟随分解为两个基本因素:相对推理不确定性(单模态预测之间针对特定案例的置信度差距)和固有模态偏好(当不确定性平衡时模型的稳定偏差)。为了验证这个框架,我们构建了一个可控数据集,系统地改变视觉和文本输入的推理难度。使用熵作为细粒度不确定性度量,我们发现了一个普遍规律:跟随某种模态的概率随着其相对不确定性的增加而单调递减。在模型倾向于以相似概率跟随两种模态的相对难度水平上,我们称之为平衡点,它是模型固有偏好的一个实用指标。与传统的宏观层面比率不同,这种度量提供了一种更具原则性且更少混淆的方式来表征模态偏差,将其与单模态能力和数据集伪影分离。此外,通过探测逐层预测,我们揭示了振荡的内部机制:在平衡点附近的模糊区域,模型在层之间在不同模态之间摇摆不定,解释了外部观察到的犹豫不决。总而言之,这些发现确立了相对不确定性和固有偏好作为模态跟随的两个主导原则,为MLLMs如何解决冲突信息提供了定量框架和机制洞察。
查看 arXiv 页面查看 PDF

评论

Yang ShiYang Shi
论文作者
论文提交者

多模态大型语言模型(MLLMs)在不同模态提供矛盾信息时必须解决冲突,我们称之为模态跟随。先前的工作仅通过粗略的数据集级别统计数据来衡量这种行为,忽略了模型对单模态推理信心的影响。在本文中,我们引入了一个新的框架,将模态跟随分解为两个基本因素:相对推理不确定性(单模态预测之间针对特定案例的置信度差距)和固有模态偏好(当不确定性平衡时模型稳定的偏差)。为了验证这个框架,我们构建了一个可控数据集,系统地改变视觉和文本输入的推理难度。使用熵作为细粒度不确定性度量,我们发现了一个普遍规律:跟随某种模态的概率随着其相对不确定性的增加而单调递减。在模型倾向于以相当概率跟随两种模态的相对难度水平上,我们称之为平衡点,它是模型固有偏好的一个实用指标。与传统的宏观级别比率不同,这种度量提供了一种更具原则性、更少混淆的方式来表征模态偏差,将其与单模态能力和数据集伪影区分开来。此外,通过探测逐层预测,我们揭示了振荡的内部机制:在平衡点附近的模糊区域,模型在各层之间在模态之间摇摆不定,解释了外部观察到的犹豫不决。总而言之,这些发现确立了相对不确定性和固有偏好是模态跟随的两个主导原则,为MLLMs如何解决冲突信息提供了量化框架和机制洞察。