文本引导向量可以在多模态大语言模型中提升视觉理解

发表
Deqing FuDeqing Fu 提交
作者: Woody Haosheng Gan, Deqing FuDeqing Fu, Julian Asilis, Ollie Liu, Dani Yogatama, Vatsal Sharan, Robin Jia, Willie Neiswanger

摘要

引导方法已成为一种有效且有针对性的工具,可以在不修改大型语言模型 (LLMs) 参数的情况下指导其行为。然而,多模态大型语言模型 (MLLMs) 目前尚未享有同样一套技术,部分原因是其相对新近以及架构的多样性。受此空白启发,我们研究了 MLLMs 是否可以通过稀疏自编码器 (SAEs)、均值漂移 (mean shift) 和线性探测 (linear probing) 等方法,利用从其仅文本 LLM 主干派生的向量进行引导。我们发现,文本派生的引导方法在各种不同的 MLLM 架构和视觉任务上始终能提高多模态准确性。特别是,均值漂移在 CV-Bench 上的空间关系准确性提高了高达 +7.3%,计数准确性提高了高达 +3.3%,优于提示方法,并且对分布外数据集表现出强大的泛化能力。这些结果突出了文本引导向量作为一种强大、高效的机制,可以在仅需最少的额外数据收集和计算开销的情况下增强 MLLMs 的“接地”能力。
查看 arXiv 页面查看 PDF

评论

Deqing FuDeqing Fu
论文作者
论文提交者

文本引导向量可以提高多模态大型语言模型中的视觉理解能力。