⏶10
理性赋能视觉:通过模型合并理解感知和推理
发表
由
Jinghan ZHANG 提交
作者:
Shiqi Chen,
Jinghan Zhang, Tongyao Zhu,
Wei Liu, Siyang Gao,
Miao Xiong, Manling Li, Junxian He
摘要
视觉-语言模型(VLM)结合了视觉感知能力与大型语言模型(LLM)的通用能力,例如推理。然而,这两种能力如何结合并发挥作用的机制仍未得到充分理解。在这项工作中,我们探索通过模型融合来整合感知和推理,这种融合连接了不同模型的参数。与之前通常专注于融合同类模型的做法不同,我们提出了跨模态模型融合,从而将大型语言模型的推理能力融入到视觉-语言模型中。通过大量实验,我们证明模型融合提供了一种成功的途径,可以在无需训练的情况下将推理能力从大型语言模型迁移到视觉-语言模型。此外,我们利用融合后的模型来理解感知和推理的内部机制以及融合对其的影响。我们发现感知能力主要编码在模型的早期层中,而推理则主要由中间到后期的层促成。融合后,我们观察到所有层都开始对推理做出贡献,而感知能力在各层中的分布基本保持不变。这些观察结果揭示了模型融合作为多模态集成和解释工具的潜力。
评论
论文作者
论文提交者
此评论已隐藏。