⏶35
视觉拼图模型微调可提升多模态语言模型性能
发表
由
Penghao Wu 提交
作者: Penghao Wu, Yushan Zhang,
Haiwen Diao,
Bo Li, Lewei Lu, Ziwei Liu


摘要
AI 生成总结
Visual Jigsaw 是一个自监督强化学习框架,通过一个排列任务(无需额外注释或生成组件)来增强多模态大型语言模型的视觉理解能力。基于强化学习的后训练最近已成为增强多模态大型语言模型 (MLLM) 的对齐和推理能力的强大范式。虽然以视觉为中心的后训练对于增强 MLLM 对视觉信号的内在理解至关重要,但当前的后训练范式主要以文本为中心,其中仅利用密集的视觉输入来提取基于文本的推理的稀疏线索。存在一些朝这个方向的研究方法,但它们通常仍然依赖于文本作为中间中介,或者引入额外的视觉生成设计。在这项工作中,我们提出了 Visual Jigsaw,一个通用的自监督后训练框架,旨在加强 MLLM 的视觉理解。Visual Jigsaw 被制定为一个通用的排序任务:将视觉输入进行分区、打乱,模型必须通过以自然语言产生正确的排列来重建视觉信息。这自然地与来自可验证奖励的强化学习 (RLVR) 相一致,不需要额外的视觉生成组件,并且自动获得其监督信号,无需任何标注。我们将 Visual Jigsaw 应用于三种视觉模态,包括图像、视频和 3D 数据。大量的实验表明,在细粒度感知、时间推理和 3D 空间理解方面取得了显著的改进。我们的研究结果突显了自监督以视觉为中心的任务在后训练 MLLM 中的潜力,并旨在启发对以视觉为中心的预文本设计的进一步研究。项目主页:https://penghao-wu.github.io/visual_jigsaw/
项目主页:https://penghao-wu.github.io/visual_jigsaw/
Github 仓库:https://github.com/penghao-wu/visual_jigsaw