⏶7
定向推理注入以微调 MLLM
发表
由
Chao Huang 提交
作者:
Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
摘要
AI 生成总结
DRIFT 是一种轻量级方法,通过在梯度空间中传递知识来增强多模态大型语言模型的推理能力,其性能优于朴素合并和有监督微调,同时降低了计算成本。多模态大型语言模型(MLLM)正在迅速发展,但其推理能力往往落后于强大的纯文本模型。弥合这一差距的现有方法依赖于对大规模多模态推理数据进行监督微调或强化学习,这两种方法都资源密集。一个有前景的替代方案是模型合并,它在推理增强型LLM和多模态变体之间进行参数插值。然而,我们的分析表明,朴素合并并非总是“免费午餐”:其有效性在不同模型家族之间差异很大,有些(例如LLaVA、Idefics)受益,而另一些(例如Qwen)则出现性能下降。为了解决这个问题,我们提出了用于微调(DRIFT)MLLM的方向性推理注入,这是一种轻量级方法,可在梯度空间中传输推理知识,而不会破坏多模态对齐的稳定性。DRIFT预先计算推理先验,作为推理变体和多模态变体之间的参数空间差异,然后使用它在多模态微调期间偏置梯度。这种方法保留了标准监督微调管道的简单性,同时实现了高效的推理传输。在包括MathVista和MathVerse在内的多模态推理基准上进行的广泛实验表明,DRIFT始终比朴素合并和监督微调更能提高推理性能,同时以极低的成本匹配或超越了训练密集型方法。
DRIFT 通过梯度引导将推理能力从 DeepSeekR1 转移到 QwenVL。