简单性的可扩展性:单Transformer视觉语言学习的实证分析

发表
Xiangtai LiXiangtai Li 提交
作者: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai LiXiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

摘要

本文介绍了 SAIL,一种单 Transformer 统一多模态大型语言模型 (MLLM),它在单个架构中集成了原始像素编码和语言解码。与现有的模块化 MLLM(依赖于预训练的视觉 Transformer (ViT))不同,SAIL 消除了对单独视觉编码器的需求,呈现出更简约的架构设计。SAIL 没有引入新颖的架构组件,而是调整了混合注意力机制和多模态位置编码,以更好地与视觉和文本模态的不同特征对齐。我们系统地比较了 SAIL 的属性(包括可扩展性、跨模态信息流模式和视觉表示能力)与模块化 MLLM 的属性。通过扩展训练数据和模型大小,SAIL 实现了与模块化 MLLM 相当的性能。值得注意的是,移除预训练的 ViT 组件增强了 SAIL 的可扩展性,并导致了显著不同的跨模态信息流模式。此外,SAIL 展示了强大的视觉表示能力,在语义分割等视觉任务中取得了与 ViT-22B 相媲美的结果。代码和模型可在 https://github.com/bytedance/SAIL 上找到。
查看 arXiv 页面查看 PDF

评论

Xiangtai LiXiangtai Li
论文作者
论文提交者

本文介绍了 SAIL,一种单一转换器统一多模态大型语言模型 (MLLM),它在单个架构内集成了原始像素编码和语言解码。与依赖于预训练视觉转换器 (ViT) 的现有模块化 MLLM 不同,SAIL 消除了对单独视觉编码器的需求,呈现出更简约的架构设计。SAIL 没有引入新颖的架构组件,而是调整了混合注意力机制和多模态位置编码,以更好地与视觉和文本模态的独特特征对齐。我们系统地比较了 SAIL 的属性——包括可扩展性、跨模态信息流模式和视觉表示能力——与模块化 MLLM 的属性。通过扩展训练数据和模型大小,SAIL 实现了与模块化 MLLM 相当的性能。值得注意的是,移除预训练的 ViT 组件增强了 SAIL 的可扩展性,并导致了显着不同的跨模态信息流模式。此外,SAIL 展示了强大的视觉表示能力,在语义分割等视觉任务中实现了与 ViT-22B 相媲美的结果

Xiangtai LiXiangtai Li
论文作者
论文提交者

代码将在 https://github.com/bytedance/SAIL 上发布