⏶15

简单性的可扩展性：单Transformer视觉语言学习的实证分析

04月14日发表

04月16日由 Xiangtai Li 提交

作者: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

摘要

本文介绍了 SAIL，一种单 Transformer 统一多模态大型语言模型 (MLLM)，它在单个架构中集成了原始像素编码和语言解码。与现有的模块化 MLLM（依赖于预训练的视觉 Transformer (ViT)）不同，SAIL 消除了对单独视觉编码器的需求，呈现出更简约的架构设计。SAIL 没有引入新颖的架构组件，而是调整了混合注意力机制和多模态位置编码，以更好地与视觉和文本模态的不同特征对齐。我们系统地比较了 SAIL 的属性（包括可扩展性、跨模态信息流模式和视觉表示能力）与模块化 MLLM 的属性。通过扩展训练数据和模型大小，SAIL 实现了与模块化 MLLM 相当的性能。值得注意的是，移除预训练的 ViT 组件增强了 SAIL 的可扩展性，并导致了显著不同的跨模态信息流模式。此外，SAIL 展示了强大的视觉表示能力，在语义分割等视觉任务中取得了与 ViT-22B 相媲美的结果。代码和模型可在 https://github.com/bytedance/SAIL 上找到。

查看 arXiv 页面查看 PDF

Xiangtai Li

论文作者

论文提交者

本文介绍了 SAIL，一种单一转换器统一多模态大型语言模型 (MLLM)，它在单个架构内集成了原始像素编码和语言解码。与依赖于预训练视觉转换器 (ViT) 的现有模块化 MLLM 不同，SAIL 消除了对单独视觉编码器的需求，呈现出更简约的架构设计。SAIL 没有引入新颖的架构组件，而是调整了混合注意力机制和多模态位置编码，以更好地与视觉和文本模态的独特特征对齐。我们系统地比较了 SAIL 的属性——包括可扩展性、跨模态信息流模式和视觉表示能力——与模块化 MLLM 的属性。通过扩展训练数据和模型大小，SAIL 实现了与模块化 MLLM 相当的性能。值得注意的是，移除预训练的 ViT 组件增强了 SAIL 的可扩展性，并导致了显着不同的跨模态信息流模式。此外，SAIL 展示了强大的视觉表示能力，在语义分割等视觉任务中实现了与 ViT-22B 相媲美的结果

Xiangtai Li

论文作者

论文提交者

代码将在 https://github.com/bytedance/SAIL 上发布

简单性的可扩展性：单Transformer视觉语言学习的实证分析

摘要

评论