Bifrost-1:通过补丁级CLIP潜在特征连接多模态大型语言模型和扩散模型

发表
Jaemin ChoJaemin Cho 提交
作者: Han Lin, Jaemin ChoJaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

摘要

人们对将高保真视觉合成能力集成到大型语言模型(LLM)中,同时不损害其强大的推理能力越来越感兴趣。现有直接训练LLM或连接LLM与扩散模型的方法通常需要昂贵的训练,因为骨干LLM在预训练期间未曾见过图像表示。我们提出了Bifrost-1,一个统一的框架,它使用补丁级CLIP图像嵌入作为潜在变量,这些变量与多模态LLM(MLLM)的CLIP视觉编码器原生对齐,从而连接预训练的多模态LLM(MLLM)和扩散模型。这些补丁级图像嵌入通过其ControlNet的轻量级适应集成到扩散模型中。为了保留MLLM原始的多模态推理能力,我们在预测补丁级图像嵌入时,为MLLM配备了一个从原始MLLM参数初始化的视觉生成分支。通过无缝集成预训练的MLLM和具有补丁级CLIP潜在变量的扩散模型,我们的框架能够以显著的训练效率实现高保真可控图像生成。我们的实验表明,Bifrost-1在视觉保真度和多模态理解方面取得了与现有方法相当或更优的性能,同时训练期间的计算量显著降低。我们还提供了全面的消融研究,显示了我们设计选择的有效性。
查看 arXiv 页面查看 PDF
Bifrost-1:通过补丁级CLIP潜在特征连接多模态大型语言模型和扩散模型

评论

Jaemin ChoJaemin Cho
论文作者
论文提交者

供参考,“Bifröst”是神话中的彩虹桥,连接着众神领域阿斯加德与人类世界米德加德。