扩展模态是通向全模态的正确道路吗?

发表
Tinghui ZhuTinghui Zhu 提交
作者: Tinghui ZhuTinghui Zhu, Kai Zhang, Muhao Chen, Yu Su

摘要

全模态语言模型(OLMs)旨在整合并推理多种输入模态——如文本、图像、视频和音频——同时保持强大的语言能力。尽管最近有所进展,现有模型,尤其是开源模型,离真正的全模态仍有很大距离,难以泛化到其训练所用的特定模态对之外,或在处理多模态输入时难以达到理想性能。我们研究了模态扩展的效果,这是一种训练多模态模型的主流技术,其中现成的语言模型在目标领域和语言数据上进行微调。具体来说,我们探讨了三个关键问题:(1)模态扩展是否会损害核心语言能力?(2)模型合并能否有效整合独立微调的模态特定模型以实现全模态?(3)与顺序扩展相比,全模态扩展是否能带来更好的知识共享和泛化?通过大量的实验,我们分析了这些权衡,并提供了关于使用当前方法实现真正全模态可行性的见解。
查看 arXiv 页面查看 PDF

评论

Tinghui ZhuTinghui Zhu
论文作者
论文提交者

我们研究了模态扩展(训练多模态模型的主要技术,即在目标领域和语言数据上对现成的语言模型进行微调)的效果。通过大量实验,我们分析了其中的权衡,并对使用现有方法实现真正全模态的可行性提供了见解。