⏶65
ShareGPT-4o-Image:将多模态模型与GPT-4o级图像生成对齐
发表
由
Junying Chen 提交
作者: Junying Chen, Zhenyang Cai,
Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
摘要
多模态生成模型的最新进展使得逼真、符合指令的图像生成成为可能,然而像GPT-4o-Image这样的领先系统仍然是专有的且难以访问。为了普及这些能力,我们推出了ShareGPT-4o-Image,这是第一个包含4.5万个文本到图像和4.6万个文本加图像到图像数据的数据集,所有这些数据都是使用GPT-4o的图像生成能力合成的,旨在提炼其先进的图像生成能力。利用这个数据集,我们开发了Janus-4o,一个能够进行文本到图像和文本加图像到图像生成的的多模态大型语言模型。Janus-4o不仅在文本到图像生成方面比其前身Janus-Pro有了显著改进,而且新增了文本加图像到图像生成功能。值得注意的是,它在从零开始的文本加图像到图像生成方面取得了令人印象深刻的性能,仅使用了9.1万个合成样本,并在8块A800 GPU机器上训练了6小时。我们希望ShareGPT-4o-Image和Janus-4o的发布能促进逼真、符合指令的图像生成领域的开放研究。
很高兴分享我们的最新工作:ShareGPT-4o-Image 🎉
我们推出了 ShareGPT-4o-Image:一个由 GPT-4o 合成的大规模图像数据集,用于将多模态模型与 GPT-4o 的图像生成能力对齐。它涵盖了文本到图像和文本与图像到图像的任务。🖼️
随之而来的是 Janus-4o,一个统一的多模态 LLM,在文本到图像和图像到文本到图像生成方面都表现出色。🚀
值得注意的是,ShareGPT-4o-Image 显著提升了图像生成能力,仅需在 A800 机器上训练 6 小时。⚡️