⏶14

RL 使 MLLM 比 SFT 看得更清楚

10月18日发表

10月21日由 taesiri 提交

作者: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo

摘要

AI 生成总结

强化学习增强了多模态语言模型中的视觉编码器，与监督微调相比，能够获得更好的视觉表示和性能。

多模态语言模型（MLLM）研究中的一个主要假设是，鉴于其巨大的参数规模和卓越的能力，其性能在很大程度上继承自 LLM 主干。这导致了对决定 MLLM 如何感知图像的视觉编码器的理解的空白。MLLM 训练范式的近期转变，从监督微调（SFT）到强化学习（RL），放大了这种疏忽——即，对这类训练如何重塑视觉编码器以及 MLLM 缺乏显著的分析。为了解决这个问题，我们首先研究了训练策略对 MLLM 的影响，其中 RL 在与视觉高度相关的 VQA 基准测试中显示出明显优于 SFT 的优势。受此启发，我们通过各种深入的实验，从 ImageNet 分类和分割到梯度可视化，对 MLLM 的视觉编码器进行了关键但探索不足的分析。我们的结果表明，MLLM 的训练后策略（即 SFT 或 RL）不仅在 MLLM 的下游任务上产生了不同的结果，而且从根本上重塑了 MLLM 底层的视觉表示。具体来说，我们研究的关键发现是，与 SFT 相比，RL 产生了更强大且精确本地化的视觉表示，增强了视觉编码器对 MLLM 的能力。然后，我们将我们的发现提炼成一个用于构建强大 MLLM 视觉编码器的简单方法，即 Preference-Instructed Vision OpTimization（PIVOT）。当集成到 MLLM 中时，经过 PIVOT 训练的视觉编码器甚至优于更大、训练更充分的同类模型，尽管其计算成本不到标准视觉预训练的 1%。这一结果为改进 MLLM 的视觉主干提供了一条有效且高效的途径。项目页面可在 https://june-page.github.io/pivot/ 获取。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

多模态语言模型（MLLM）研究中的一个普遍假设是，鉴于其巨大的参数规模和卓越的能力，其性能在很大程度上继承自 LLM 主干。这导致了对视觉编码器的理解存在空白，视觉编码器决定了 MLLM 如何感知图像。最近 MLLM 训练范式的转变，从监督微调（SFT）到强化学习（RL），加剧了这种忽视——即，对这种训练如何重塑视觉编码器以及 MLLM 缺乏显著的分析。为了解决这个问题，我们首先调查了训练策略对 MLLM 的影响，其中 RL 在视觉相关的 VQA 基准测试中显示出明显优于 SFT 的优势。受此启发，我们通过从 ImageNet 分类和分割到梯度可视化等各种深入的实验，对 MLLM 的视觉编码器进行了批判性但未被充分探索的分析。我们的结果表明，MLLM 的训练后策略（即 SFT 或 RL）不仅在 MLLM 下游任务上产生了不同的结果，而且从根本上重塑了 MLLM 的底层视觉表示。具体来说，我们研究的关键发现是，与 SFT 相比，RL 产生了更强大且精确局部化的视觉表示，增强了视觉编码器对 MLLM 的能力。然后，我们将我们的发现重塑为一个构建强大 MLLM 视觉编码器的简单方法，即 Preference-Instructed Vision OpTimization (PIVOT)。当集成到 MLLM 中时，经过 PIVOT 训练的视觉编码器即使在计算成本仅为标准视觉预训练的 1% 的情况下，也能优于更大、训练更充分的同类产品。这一结果为改进 MLLM 的视觉主干开辟了一条有效且高效的途径。项目页面可在该 URL 获取

RL 使 MLLM 比 SFT 看得更清楚

摘要

评论