⏶11
大型多模态模型中用于细粒度几何理解的难负样本对比学习
发表
由
Jiajie Zhang 提交
作者: Kai Sun,
Yushi Bai, Zhen Yang,
Jiajie Zhang, Ji Qi, Lei Hou,
Juanzi Li
摘要
得益于在大型自然场景图像上对比训练的视觉编码器,大型多模态模型 (LMM) 在各种视觉感知任务中取得了卓越的性能。然而,对比学习在总结描述上的固有局限性从根本上限制了模型在精细推理方面的能力,特别是在几何问题解决等关键场景中。为了增强几何理解能力,我们为视觉编码器提出了一种新颖的困难负例对比学习框架,该框架结合了基于图像的对比学习(使用通过扰动图生成代码创建的基于生成的困难负例)和基于文本的对比学习(使用源自修改几何描述的基于规则的负例和基于标题相似性选择的基于检索的负例)。我们使用我们的强负例学习方法(称为 MMCLIP (Multimodal Math CLIP))训练 CLIP,然后训练一个用于解决几何问题的 LMM。实验表明,我们训练的模型 MMGeoLM 在三个几何推理基准测试上显着优于其他开源模型。即使其规模为 7B,它也能与 GPT-4o 等强大的闭源模型匹敌。我们进一步研究了不同负例构建方法和负例数量对 LMM 几何推理性能的影响,得出了丰硕的结论。代码和数据集可在 https://github.com/THU-KEG/MMGeoLM 获取。
Github 仓库:https://github.com/THU-KEG/MMGeoLM.
Huggingface 数据集:https://huggingface.co/datasets/THU-KEG/MM-Math-Align