⏶11
X-Fusion: 引入新模态到冻结的大型语言模型
发表
由
Sicheng Mo 提交
作者:
Sicheng Mo, Thao Nguyen, Xun Huang, Siddharth Srinivasan Iyer, Yijun Li, Yuchen Liu, Abhishek Tandon, Eli Shechtman, Krishna Kumar Singh,
Yong Jae Lee,
Bolei Zhou, Yuheng Li
摘要
我们提出 X-Fusion,这是一个扩展预训练大型语言模型 (LLMs) 用于多模态任务,同时保留其语言能力的框架。X-Fusion 采用带有模态特定权重的双塔设计,冻结 LLM 的参数,同时集成用于理解和生成的视觉特定信息。我们的实验表明,在图像到文本和文本到图像任务上,X-Fusion 持续优于其他替代架构。我们发现,纳入注重理解的数据提高了生成质量,减少图像数据噪声提升了整体性能,而特征对齐加速了小型模型的收敛,但对大型模型影响微乎其微。我们的研究结果为构建高效的统一多模态模型提供了宝贵的见解。
本文提出了 X-Fusion,这是一个扩展预训练大语言模型 (LLMs) 以支持多模态任务,同时保留其语言能力的框架。