元适应提示蒸馏用于少样本视觉问答

发表
Akash GuptaAkash Gupta 提交
作者: Akash GuptaAkash Gupta, Amos Storkey, Mirella Lapata

摘要

大型多模态模型(LMM)通常依赖上下文学习(ICL)以最少的监督执行新任务。然而,ICL的性能,特别是在较小的LMM中,表现出不一致性,并且并非总是随着示例的增加而单调提升。我们假设这发生的原因是LMM被图像嵌入中存在的额外信息所淹没,而这些信息对于下游任务来说并非必需。为了解决这个问题,我们提出了一种元学习方法,它为LMM中引入少样本能力提供了一种替代方案,该方法使用一组固定的软提示,这些软提示从任务相关的图像特征中提炼而来,并且可以在测试时使用少量示例进行调整。为了促进这种提炼,我们引入了一个注意力映射模块,该模块可以轻松地与流行的LLaVA v1.5架构集成,并与软提示共同学习,从而使LMM能够在低数据条件下仅通过几个梯度步长进行任务适应。在VL-ICL Bench上的评估表明,我们的方法持续优于ICL和相关的提示调优方法,即使在图像扰动下也是如此,从而改善了视觉问答任务中的任务引导和推理能力。
查看 arXiv 页面查看 PDF

评论

Akash GuptaAkash Gupta
论文作者
论文提交者

大型多模态模型 (LMM) 通常依赖上下文学习 (ICL) 来以最少监督执行新任务。然而,ICL的性能,尤其是在较小的LMM中,表现不稳定,并且并不总是随着示例数量的增加而单调提升。我们假设这发生的原因是LMMs因图像嵌入中存在的、下游任务不需要的额外信息而“不堪重负”。为了解决这个问题,我们提出了一种元学习方法,该方法提供了一种替代方案,用于赋予LMMs小样本能力,它使用一组固定的软提示,这些提示是从任务相关的图像特征中提炼出来的,并且可以在测试时使用少量示例进行适应。为了促进这种提炼,我们引入了一个注意力映射模块,该模块可以轻松地与流行的LLaVA v1.5架构集成,并与软提示共同学习,使得LMMs能够在低数据量情况下,仅通过少量梯度步实现任务适应。在VL-ICL基准测试上的评估表明,即使在图像扰动下,我们的方法也持续优于ICL和相关的提示调整方法,改进了视觉问答任务中的任务归纳和推理能力。