原生多模态模型的缩放定律 原生多模态模型的缩放定律

发表
AKAK 提交
作者: Mustafa ShukorMustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby

摘要

构建能够有效**地**通过多模态信号感知世界的通用模型一直是一个长期以来的目标。当前的方法包括整合单独预训练的组件,例如将视觉编码器连接到大型语言模型(LLMs)并继续进行多模态训练。虽然这些方法表现出卓越的样本效率,但后期融合架构是否*本质上*更优越仍然是一个开放性问题。在这项工作中,我们重新审视了原生多模态模型(NMMs)——即那些从头开始在所有模态上训练的模型——的架构设计,并进行了一项广泛的扩展定律研究,涵盖了 457 个具有不同架构和训练混合的模型。我们的研究表明,后期融合架构相对于早期融合架构(后者不依赖图像编码器)并没有固有的优势。相反,早期融合在较低的参数量下表现出更强的性能,训练效率更高,并且更易于部署。受到早期融合架构强大性能的鼓舞,我们表明,结合混合专家模型(MoEs)可以使模型学习模态特定的权重,从而显著提高性能。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-11 at 2.45.40 PM.png