⏶51
MANZANO: 一种简单且可扩展的统一多模态模型,具有混合视觉分词器
发表
由
taesiri 提交
作者:
Yanghao Li, Rui Qian,
Bowen Pan,
Haotian Zhang,
Haoshuo Huang, Bowen Zhang,
Jialing Tong, Haoxuan You,
Xianzhi Du, Zhe Gan,
Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang,
Mingfei Gao,
Zi-Yi Dou, Wenze Hu,
Chang Gao,
Dongxu Li, Philipp Dufter, Zirui Wang,
Guoli Yin, Zhengdong Zhang,
Chen Chen, Yang Zhao,
Ruoming Pang, Zhifeng Chen
摘要
AI 生成总结
Manzano 是一个统一的多模态大型语言模型框架,它使用混合分词器和扩散解码器整合了图像和文本处理,在理解和生成视觉内容方面均达到了最先进的性能。能够理解和生成视觉内容的多模态大型语言模型 (LLMs) 具有巨大的潜力。
然而,现有的开源模型在这些能力之间常常存在性能权衡。
我们提出了 Manzano,一个简单且可扩展的统一框架,通过结合混合图像标记器和精心策划的训练方案,极大地缓解了这种张力。
一个共享的视觉编码器为两个轻量级适配器提供输入,这两个适配器在共同的语义空间中产生用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。
一个统一的自回归 LLM 以文本和图像标记的形式预测高级语义,辅助的扩散解码器随后将图像标记转换为像素。
该架构以及跨理解和生成数据的统一训练方案,使得两种能力的可扩展联合学习成为可能。
Manzano 在统一模型中取得了最先进的成果,并且与专门模型相比具有竞争力,尤其是在富文本评估方面。
我们的研究表明,任务冲突最小,并且通过扩展模型尺寸可以获得持续的收益,从而验证了我们对混合标记器的设计选择。
能够理解和生成视觉内容的多模态大型语言模型(LLMs)具有巨大的潜力。然而,现有的开源模型在这两种能力之间常常存在性能权衡。我们提出了 Manzano,一个简单且可扩展的统一框架,它通过结合混合图像分词器和精心设计的训练配方,显著缓解了这种矛盾。一个共享的视觉编码器为两个轻量级适配器提供输入,这两个适配器在共同的语义空间中生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。一个统一的自回归 LLM 以文本和图像标记的形式预测高级语义,随后一个辅助扩散解码器将图像标记转换为像素。该架构以及在理解和生成数据上的统一训练配方,使得这两种能力能够进行可扩展的联合学习。Manzano 在统一模型中取得了最先进的成果,并与专用模型具有竞争力,尤其是在富文本评估方面。我们的研究表明,任务冲突很小,并且模型规模的扩展带来了持续的收益,验证了我们对混合分词器的设计选择。