通过渐进式一致性蒸馏实现高效的多模态大型语言模型

发表
Zichen WenZichen Wen 提交
作者: Zichen WenZichen Wen, WangShaobo Wang, YUFA ZHOUYufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang

摘要

AI 生成总结
EPIC,一个渐进式学习框架,通过在视觉标记压缩过程中进行标记和层一致性蒸馏来降低训练难度,从而提高了多模态大型模型的效率。
视觉 token 在多模态大型模型 (MLLMs) 中消耗大量的计算资源,严重影响了其效率。近期研究试图通过在训练期间压缩视觉 token 来提高效率,无论是通过修改模型组件还是引入额外的参数。然而,它们常常忽略了这种压缩带来的学习难度增加,因为模型的参数空间难以快速适应由 token 压缩引起的特征空间中的剧烈扰动。在本研究中,我们提出了通过渐进一致性蒸馏 (EPIC) 来开发高效 MLLMs,这是一个渐进式学习框架。具体而言,通过沿 token 维度和层维度分解 token 压缩引入的特征空间扰动,我们分别引入了 token 一致性蒸馏和层一致性蒸馏,旨在通过利用教师模型的指导并遵循渐进式学习轨迹来降低训练难度。大量的实验证明了我们提出的框架在有效性、鲁棒性和泛化能力方面的卓越表现。
查看 arXiv 页面查看 PDF

评论

Zichen WenZichen Wen
论文作者
论文提交者

视觉 token 在多模态大型模型 (MLLMs) 中消耗大量的计算资源,严重影响其效率。最近的研究试图通过在训练过程中压缩视觉 token 来提高效率,方法包括修改模型组件或引入额外的参数。然而,它们常常忽略了这种压缩带来的学习难度增加,因为模型的参数空间难以快速适应 token 压缩引起的特征空间中的大幅扰动。在这项工作中,我们提出通过渐进一致性蒸馏 (EPIC) 来开发高效的 MLLMs,这是一个渐进式学习框架。具体来说,通过沿 token 维度和层维度分解 token 压缩引起的特征空间扰动,我们分别引入了 token 一致性蒸馏和层一致性蒸馏,旨在通过利用教师模型的指导并遵循渐进式学习轨迹来降低训练难度。大量实验证明了我们提出的框架在有效性、鲁棒性和泛化能力方面的优越性。

代码:https://github.com/ZichenWen1/EPIC
主页:https://zichenwen1.github.io/EPIC