视觉指令瓶颈调优

发表
Changdae OhChangdae Oh 提交
作者: Changdae OhChangdae Oh, Jiatong Li, Shawn Im, Yixuan Li

摘要

尽管多模态大型语言模型 (MLLM) 已被广泛采用,但在遇到分布偏移下的陌生查询时,其性能会下降。现有的提高 MLLM 泛化能力的方法通常需要更多指令数据或更大的高级模型架构,这两者都会带来不菲的人力或计算成本。在这项工作中,我们从表示学习的角度,采取了另一种方法来增强 MLLM 在分布偏移下的鲁棒性。受信息瓶颈 (IB) 原理的启发,我们为 MLLM 推导了 IB 的变分下界,并设计了一种实用实现,称为视觉指令瓶颈调优 (Vittle)。然后,我们通过揭示 Vittle 与 MLLM 的信息论鲁棒性度量的联系,为其提供了理论依据。在包括 30 个偏移场景在内的 45 个数据集上,对三种 MLLM 在开放式和封闭式问答以及对象幻觉检测任务上的实证验证表明,Vittle 通过学习最小充分表示,持续提高了 MLLM 在偏移下的鲁棒性。
查看 arXiv 页面查看 PDF

评论

Changdae OhChangdae Oh
论文作者
论文提交者

一个用于稳健的视觉指令微调的新学习目标!