统一多模态预训练中的涌现特性

发表
Kunchang LiKunchang Li 提交
作者: Chaorui Deng, Deyao Zhu, Kunchang LiKunchang Li, Chenhui GouChenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao YuWeihao Yu, Xiaonan NieXiaonan Nie, SongZiang Song, Guang Shi, Haoqi Fan

摘要

统一多模态理解与生成在尖端专有系统中已展现出令人印象深刻的能力。在这项工作中,我们引入了 BAGEL,一个原生支持多模态理解和生成的开源基础模型。BAGEL 是一个统一的、仅解码器模型,在从大规模交错文本、图像、视频和网络数据中精心策划的数万亿个 tokens 上进行了预训练。当通过如此多样化的多模态交错数据进行扩展时,BAGEL 在复杂的跨模态推理中表现出涌现能力。因此,在标准基准测试中,它在多模态生成和理解方面都显著优于开源统一模型,同时展现出先进的多模态推理能力,例如自由形式的图像操纵、未来帧预测、3D 操纵和世界导航。为了促进多模态研究的进一步机会,我们分享了关键发现、预训练细节、数据创建协议,并向社区发布了我们的代码和检查点。项目页面位于 https://bagel-ai.org/
查看 arXiv 页面查看 PDF
统一多模态预训练中的涌现特性

评论

Kunchang LiKunchang Li
论文作者
论文提交者

将多模态理解与生成统一起来,在尖端专有系统中展现出了令人印象深刻的能力。在这项工作中,我们引入了BAGEL,一个原生支持多模态理解与生成的开源基础模型。BAGEL是一个统一的、仅包含解码器的模型,在精心整理的大规模交错文本、图像、视频和网页数据构成的万亿级别token上进行了预训练。当用如此多样的多模态交错数据进行扩展时,BAGEL在复杂的多模态推理方面展现出了涌现能力。因此,在标准基准测试中,它在多模态生成和理解方面均显著优于现有的开源统一模型,同时展现出高级的多模态推理能力,例如自由形式的图像操作、未来帧预测、3D操作和世界导航。为了促进多模态研究的进一步机会,我们分享了主要发现、预训练细节、数据创建流程,并将我们的代码和检查点发布给社区。项目页面位于 https://bagel-ai.org/

YJYJ

适合随时随地学习的音频概述:https://youtu.be/0HmtJTO3ZXI 3E9521DB-01BD-43CE-A5E4-A223ABF1BDA3.jpeg