⏶24
Echo-4o:利用 GPT-4o 合成图像的力量改进图像生成
发表
由
Dongzhi Jiang 提交
作者: Junyan Ye,
Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu,
Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li

摘要
最近,GPT-4o 因其在图像生成方面的强大性能而受到广泛关注,但开源模型仍落后于此。一些研究探索了从 GPT-4o 中提取图像数据以增强开源模型,并取得了显著进展。然而,一个关键问题仍然存在:考虑到真实世界图像数据集已经构成了高质量数据的自然来源,我们为什么要使用 GPT-4o 生成的合成数据?在这项工作中,我们确定了合成图像的两个主要优势。首先,它们可以补充真实世界数据集中稀有的场景,例如用户查询中经常出现的超现实幻想或多参考图像生成。其次,它们提供干净且可控的监督。真实世界数据通常包含复杂的背景噪声以及文本描述与图像内容之间的固有不匹配,而合成图像提供纯净的背景和长尾监督信号,从而促进更准确的文本到图像对齐。基于这些见解,我们引入了 Echo-4o-Image,一个由 GPT-4o 生成的 180K 规模的合成数据集,利用合成图像数据的力量来解决真实世界覆盖中的盲点。使用此数据集,我们对统一多模态生成基线 Bagel 进行了微调,以获得 Echo-4o。此外,我们提出了两个新的评估基准,用于更准确和更具挑战性地评估图像生成能力:GenEval++,它增加了指令复杂性以减轻分数饱和;以及 Imagine-Bench,它侧重于评估想象内容的理解和生成。Echo-4o 在标准基准测试中表现出色。此外,将 Echo-4o-Image 应用于其他基础模型(例如 OmniGen2、BLIP3-o)在多个指标上都产生了持续的性能提升,突出了数据集强大的可迁移性。
释放 GPT-4o 生成图像的全部潜力:
💻 GitHub:https://github.com/yejy53/Echo-4o
🤗 数据集:https://huggingface.co/datasets/Yejy53/Echo-4o-Image/
🖼️ 图库:https://yejy53.github.io/Echo-4o