OpenGPT-4o-Image:用于高级图像生成和编辑的综合数据集

发表
Yang ShiYang Shi 提交
作者: Zhihong Chen, Xuehai Bai, Yang ShiYang Shi, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang

摘要

AI 生成总结
OpenGPT-4o-Image 是一个具有分层任务分类和自动化生成功能的大规模数据集,显著提高了图像生成和编辑任务的性能。
图像生成和编辑的统一多模态模型的性能在根本上受到其训练数据的质量和全面的限制。虽然现有数据集涵盖了风格转移和简单对象操作等基本任务,但它们通常缺乏现实应用所需的系统结构和挑战性场景。为了解决这一瓶颈,我们引入了 OpenGPT-4o-Image,一个使用结合了分层任务分类和自动化数据生成的新颖方法构建的大规模数据集。我们的分类不仅包括文本渲染和样式控制等基本功能,还引入了高度实用但具有挑战性的类别,例如用于化学插图的科学图像和需要同时执行多个操作的复杂指令编辑。通过利用结构化资源池和 GPT-4o 的自动化流程,我们生成了 80k 个高质量的指令-图像对,具有受控的多样性,涵盖了 11 个主要领域和 51 个子任务。大量的实验表明,在我们的数据集上微调领先模型可以在多个基准上实现显著的性能提升,在编辑任务(UniWorld-V1 在 ImgEdit-Bench 上)上提高了 18%,在生成任务(Harmon 在 GenEval 上)上提高了 13%。我们的工作表明,系统化的数据构建是推进多模态人工智能能力的的关键。
查看 arXiv 页面查看 PDF

评论

Yang ShiYang Shi
论文作者
论文提交者

统一多模态模型在图像生成和编辑方面的性能,根本上受到其训练数据的质量和全面性的制约。尽管现有数据集涵盖了风格迁移和简单对象操作等基本任务,但它们往往缺乏现实应用所需的系统结构和具有挑战性的场景。为了解决这一瓶颈,我们引入了 OpenGPT-4o-Image,这是一个使用新颖方法构建的大规模数据集,该方法结合了分层任务分类法和自动化数据生成。我们的分类法不仅包括文本渲染和风格控制等基本功能,还引入了实际且具有挑战性的类别,例如化学插图的科学图像以及需要同时执行多个操作的复杂指令编辑。通过利用结构化资源池和 GPT-4o 的自动化流程,我们生成了 80,000 个高质量的指令-图像对,具有可控的多样性,涵盖 11 个主要领域和 51 个子任务。广泛的实验表明,在我们的数据集上微调领先模型,在多个基准上实现了显著的性能提升,在编辑任务上(UniWorld-V1 在 ImgEdit-Bench 上)提升高达 18%,在生成任务上(Harmon 在 GenEval 上)提升高达 13%。我们的工作表明,系统化的数据构建是推动多模态 AI 能力发展的关键。