BLIP3o-NEXT:原生图像生成的下一个前沿

发表
taesiritaesiri 提交
作者: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu

摘要

AI 生成总结
BLIP3o-NEXT 是一款统一的文本到图像生成和图像编辑模型,采用自回归+扩散架构,实现了卓越的性能和真实感。
我们提出了 BLIP3o-NEXT,它是 BLIP3 系列中一个完全开源的基础模型,推动了原生图像生成的新前沿。BLIP3o-NEXT 在单个架构中统一了文本到图像生成和图像编辑,展示了强大的图像生成和图像编辑能力。在开发最先进的原生图像生成模型时,我们发现了四个关键见解:(1) 大多数架构选择都能产生可比的性能;只要一个架构能够高效扩展并支持快速推理,就可以认为它是有效的;(2) 强化学习的成功应用可以进一步推动原生图像生成的前沿;(3) 图像编辑仍然是一项挑战性任务,但通过后训练和数据引擎可以显著增强指令遵循以及生成图像和参考图像之间的一致性;(4) 数据质量和规模仍然是决定模型性能上限的关键因素。基于这些见解,BLIP3o-NEXT 采用了自回归 + 扩散架构,其中自回归模型首先根据多模态输入生成离散图像 token,然后其隐藏状态用作扩散模型的条件信号,以生成高保真图像。这种架构将自回归模型的推理强度和指令遵循能力与扩散模型的精细渲染能力相结合,实现了新的连贯性和真实感水平。对各种文本到图像和图像编辑基准的广泛评估表明,BLIP3o-NEXT 的性能优于现有模型。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们提出了 BLIP3o-NEXT,它是 BLIP3 系列中一个完全开源的基础模型,代表了原生图像生成的下一个前沿。BLIP3o-NEXT 在单一架构中统一了文本到图像生成和图像编辑,展现了强大的图像生成和图像编辑能力。在开发最先进的原生图像生成模型过程中,我们发现了四个关键见解:(1)大多数架构选择可产生可比的性能;只要一个架构能高效扩展并支持快速推理,就可以认为它是有效的;(2)强化学习的成功应用可以进一步推动原生图像生成的前沿;(3)图像编辑仍然是一项挑战性任务,但可以通过后训练和数据引擎显著增强指令遵循以及生成图像与参考图像之间的一致性;(4)数据质量和规模仍然是决定模型性能上限的关键因素。基于这些见解,BLIP3o-NEXT 采用了自回归 + 扩散架构,其中自回归模型首先根据多模态输入生成离散的图像 token,然后这些 token 的隐藏状态被用作扩散模型的条件信号,以生成高保真图像。这种架构将自回归模型的推理能力和指令遵循能力与扩散模型的精细渲染能力相结合,达到了新的连贯性和真实感水平。对各种文本到图像和图像编辑基准的广泛评估表明,BLIP3o-NEXT 的性能优于现有模型。