MLLM中的无需训练的推理和反思

发表
hcweihcwei 提交
作者: Hongchen Wei, Zhenzhong Chen

摘要

推理 LLM 的最新进展(例如 DeepSeek-R1 和 OpenAI-o1)通过强化学习展示了令人印象深刻的推理能力。然而,将这些能力扩展到多模态 LLM(MLLMs)受到高昂的重新训练成本和缺乏高质量、可验证的多模态推理数据集的阻碍。本文介绍了 FRANK Model,一个训练无关且类似于 r1 的 MLLM,它为现成的 MLLMs 赋予推理和反思能力,无需任何梯度更新或额外监督。我们的关键洞察是将 MLLM 解码器层中的感知与推理解耦。具体而言,我们观察到,与更深的解码器层相比,较浅的解码器层将更多注意力分配给视觉 token,而更深的解码器层则专注于文本语义。这一观察促使了一种分层权重合并方法,结合了视觉预训练的 MLLM 和推理专用的 LLM。为此,我们提出一种逐层、基于泰勒导数的闭式融合机制,将推理能力集成到深层解码器层,同时保留浅层解码器层的视觉 grounding。在具有挑战性的多模态推理基准上进行大量实验证明了我们方法的有效性。在 MMMU 基准上,我们的模型 FRANK-38B 达到 69.2 的准确率,性能超过最强的基线 InternVL2.5-38B +5.3 分,甚至超越了专有模型 GPT-4o。我们的项目主页位于:http://iip.whu.edu.cn/frank/index.html
查看 arXiv 页面查看 PDF

评论

hcweihcwei
论文提交者

demo.gif

codecode

请提供开源代码。