多模态大语言模型的视觉表示对齐

发表
taesiritaesiri 提交
作者: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim

摘要

通过视觉指令微调训练的多模态大型语言模型(MLLM)在各种任务上都取得了出色的性能,但它们在以视觉为中心的任务(如对象计数或空间推理)方面仍然有限。我们将这种差距归因于普遍存在的纯文本监督范式,该范式仅为视觉通路提供间接指导,并且经常导致 MLLM 在训练过程中丢弃细粒度的视觉细节。在本文中,我们提出了 VIsual Representation ALignment (VIRAL),这是一种简单而有效的正则化策略,可将 MLLM 的内部视觉表示与预训练的视觉基础模型(VFM)的内部视觉表示对齐。通过明确强制这种对齐,VIRAL 使模型不仅能够保留输入视觉编码器的关键视觉细节,还能从 VFM 获得额外的视觉知识,从而增强其对复杂视觉输入进行推理的能力。我们的实验表明,在广泛采用的多模态基准测试的所有任务上都取得了持续的改进。此外,我们进行了全面的消融研究,以验证我们框架背后的关键设计选择。我们认为这一简单的发现为在训练 MLLM 中有效集成视觉信息开辟了一个重要方向。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 通过视觉指令微调训练的多模态大型语言模型(MLLM)在各种任务上都取得了出色的性能,但它们在视觉中心任务(如物体计数或空间推理)方面仍然存在局限性。我们将这种差距归因于普遍存在的纯文本监督范式,该范式仅为视觉通路提供间接指导,并且经常导致 MLLM 在训练过程中丢弃精细的视觉细节。在本文中,我们提出了 VIsual Representation ALignment (VIRAL),这是一种简单而有效的正则化策略,它将 MLLM 的内部视觉表示与预训练的视觉基础模型(VFM)的内部视觉表示对齐。通过明确强制执行这种对齐,VIRAL 不仅使模型能够保留输入视觉编码器的关键视觉细节,还能从 VFM 获得额外的视觉知识,从而增强其对复杂视觉输入的推理能力。我们的实验证明,在广泛采用的多模态基准的所有任务上都取得了持续的改进。此外,我们进行了全面的消融研究,以验证我们框架的关键设计选择。我们相信这一简单的发现为在 MLLM 训练中有效整合视觉信息开辟了一个重要方向。

Jitesh JainJitesh Jain

有趣的想法!几个月前我们尝试过非常类似的东西:https://praeclarumjj3.github.io/ola_vlm/

很高兴看到 VIRAL 的作者也在 CV-Bench 等基准测试中观察到改进。我认为我们论文中的探测发现也在一定程度上解释了 VIRAL 的结果,并且很高兴知道中间层对 VIRAL 来说也是最好的!

很高兴看到嵌入蒸馏在未来的 VLM 开发中具有潜力!

Jaewoo JungJaewoo Jung

很有意思!我们一定会看看 👀

Kwangrok RyooKwangrok Ryoo

恭喜!🥳

Jaewoo JungJaewoo Jung

感谢分享我们的工作!

我们的代码也发布在:https://github.com/cvlab-kaist/VIRAL 😄

另外,我们计划在接下来的几周内增加更多的分析和实验!

Jini YangJini Yang

干得好!