RL 使 MLLM 比 SFT 看得更清楚

发表
taesiritaesiri 提交
作者: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo

摘要

AI 生成总结
强化学习增强了多模态语言模型中的视觉编码器,与监督微调相比,能够获得更好的视觉表示和性能。
多模态语言模型(MLLM)研究中的一个主要假设是,鉴于其巨大的参数规模和卓越的能力,其性能在很大程度上继承自 LLM 主干。这导致了对决定 MLLM 如何感知图像的视觉编码器的理解的空白。MLLM 训练范式的近期转变,从监督微调(SFT)到强化学习(RL),放大了这种疏忽——即,对这类训练如何重塑视觉编码器以及 MLLM 缺乏显著的分析。为了解决这个问题,我们首先研究了训练策略对 MLLM 的影响,其中 RL 在与视觉高度相关的 VQA 基准测试中显示出明显优于 SFT 的优势。受此启发,我们通过各种深入的实验,从 ImageNet 分类和分割到梯度可视化,对 MLLM 的视觉编码器进行了关键但探索不足的分析。我们的结果表明,MLLM 的训练后策略(即 SFT 或 RL)不仅在 MLLM 的下游任务上产生了不同的结果,而且从根本上重塑了 MLLM 底层的视觉表示。具体来说,我们研究的关键发现是,与 SFT 相比,RL 产生了更强大且精确本地化的视觉表示,增强了视觉编码器对 MLLM 的能力。然后,我们将我们的发现提炼成一个用于构建强大 MLLM 视觉编码器的简单方法,即 Preference-Instructed Vision OpTimization(PIVOT)。当集成到 MLLM 中时,经过 PIVOT 训练的视觉编码器甚至优于更大、训练更充分的同类模型,尽管其计算成本不到标准视觉预训练的 1%。这一结果为改进 MLLM 的视觉主干提供了一条有效且高效的途径。项目页面可在 https://june-page.github.io/pivot/ 获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

多模态语言模型(MLLM)研究中的一个普遍假设是,鉴于其巨大的参数规模和卓越的能力,其性能在很大程度上继承自 LLM 主干。这导致了对视觉编码器的理解存在空白,视觉编码器决定了 MLLM 如何感知图像。最近 MLLM 训练范式的转变,从监督微调(SFT)到强化学习(RL),加剧了这种忽视——即,对这种训练如何重塑视觉编码器以及 MLLM 缺乏显著的分析。为了解决这个问题,我们首先调查了训练策略对 MLLM 的影响,其中 RL 在视觉相关的 VQA 基准测试中显示出明显优于 SFT 的优势。受此启发,我们通过从 ImageNet 分类和分割到梯度可视化等各种深入的实验,对 MLLM 的视觉编码器进行了批判性但未被充分探索的分析。我们的结果表明,MLLM 的训练后策略(即 SFT 或 RL)不仅在 MLLM 下游任务上产生了不同的结果,而且从根本上重塑了 MLLM 的底层视觉表示。具体来说,我们研究的关键发现是,与 SFT 相比,RL 产生了更强大且精确局部化的视觉表示,增强了视觉编码器对 MLLM 的能力。然后,我们将我们的发现重塑为一个构建强大 MLLM 视觉编码器的简单方法,即 Preference-Instructed Vision OpTimization (PIVOT)。当集成到 MLLM 中时,经过 PIVOT 训练的视觉编码器即使在计算成本仅为标准视觉预训练的 1% 的情况下,也能优于更大、训练更充分的同类产品。这一结果为改进 MLLM 的视觉主干开辟了一条有效且高效的途径。项目页面可在该 URL 获取