X-Fusion: 引入新模态到冻结的大型语言模型

发表
Sicheng MoSicheng Mo 提交
作者: Sicheng MoSicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh, Yong Jae LeeYong Jae Lee, Bolei ZhouBolei Zhou, Yuheng Li

摘要

我们提出 X-Fusion,这是一个扩展预训练大型语言模型 (LLMs) 用于多模态任务,同时保留其语言能力的框架。X-Fusion 采用带有模态特定权重的双塔设计,冻结 LLM 的参数,同时集成用于理解和生成的视觉特定信息。我们的实验表明,在图像到文本和文本到图像任务上,X-Fusion 持续优于其他替代架构。我们发现,纳入注重理解的数据提高了生成质量,减少图像数据噪声提升了整体性能,而特征对齐加速了小型模型的收敛,但对大型模型影响微乎其微。我们的研究结果为构建高效的统一多模态模型提供了宝贵的见解。
查看 arXiv 页面查看 PDF

评论

Sicheng MoSicheng Mo
论文作者
论文提交者

本文提出了 X-Fusion,这是一个扩展预训练大语言模型 (LLMs) 以支持多模态任务,同时保留其语言能力的框架。