评估和引导多模态大型语言模型中的模态偏好

发表
Adina YakefuAdina Yakefu 提交
作者: Yu ZhangYu Zhang, Jinlong Ma, Yongshuai Hou, Xuefeng Bai, Kehai Chen, Yang Xiang, Jun Yu, Min Zhang

摘要

多模态大型语言模型(MLLM)在具有多模态上下文的复杂任务上取得了卓越的性能。然而,在处理多模态上下文时,它们是否表现出模态偏好仍未得到充分研究。为了研究这个问题,我们首先在受控的证据冲突场景下构建了一个 MC\textsuperscript{2} 基准,以系统地评估模态偏好,即在基于多模态冲突证据做出决策时,倾向于一种模态而不是另一种模态的趋势。我们的大量评估表明,所有 18 个经过测试的 MLLM 通常都表现出明显的模态偏见,并且模态偏好会受到外部干预的影响。深入分析表明,偏好方向可以被捕获在 MLLM 的潜在表示中。基于此,我们提出了一种基于表示工程的探测和引导方法,无需额外的微调或精心设计的提示,即可明确控制模态偏好。我们的方法有效地将模态偏好放大到期望的方向,并适用于下游任务,例如幻觉缓解和多模态机器翻译,取得了可喜的改进。
查看 arXiv 页面查看 PDF

评论

Adina YakefuAdina Yakefu
论文提交者

多模态大语言模型(MLLMs)在处理多模态上下文的复杂任务中取得了显著的性能。然而,它们在处理多模态上下文时是否表现出模态偏好仍有待研究。为了研究这个问题,我们首先在受控的证据冲突场景下构建了一个MC2基准,以系统地评估模态偏好,即在基于多模态冲突证据做出决策时,偏爱一种模态而非另一种模态的倾向。我们的广泛评估表明,所有18个受测的MLLMs普遍表现出明显的模态偏见,并且模态偏好可以受到外部干预的影响。深入分析显示,偏好方向可以被捕获在MLLMs的潜在表示中。在此基础上,我们提出了一种基于表示工程的探测和引导方法,无需额外的微调或精心设计的提示,即可明确控制模态偏好。我们的方法有效地将模态偏好放大到期望的方向,并适用于幻觉缓解和多模态机器翻译等下游任务,取得了可喜的改进。