ImgEdit:一个统一的图像编辑数据集和基准

发表
YSHYSH 提交
作者: Yang Ye, Xianyi He, Zongjian Li, linbinBin Lin, YSHShenghai Yuan, Zhiyuan YanZhiyuan Yan, Bohan Hou, Li Yuan

摘要

生成模型的最新进展使得高保真文本到图像生成成为可能。然而,开源图像编辑模型仍然落后于专有模型,这主要是由于缺乏高质量数据和不足的基准。为了克服这些限制,我们引入了 ImgEdit,一个大规模、高质量的图像编辑数据集,包含 120 万个精心策划的编辑对,其中包括新颖且复杂的单步编辑以及具有挑战性的多步任务。为了确保数据质量,我们采用了一个多阶段管线,集成了先进的视觉-语言模型、检测模型、分割模型,以及特定任务的修复过程和严格的后处理。ImgEdit 在任务新颖性和数据质量方面均超越了现有数据集。使用 ImgEdit,我们训练了 ImgEdit-E1,一个使用视觉语言模型处理参考图像和编辑提示的编辑模型,该模型在多个任务上优于现有开源模型,突显了 ImgEdit 和模型设计的价值。为了进行全面评估,我们引入了 ImgEdit-Bench,一个旨在从指令遵循、编辑质量和细节保留方面评估图像编辑性能的基准。它包括一个基础测试套件、一个具有挑战性的单步套件和一个专门的多步套件。我们评估了开源和专有模型以及 ImgEdit-E1,提供了深入分析和关于图像编辑模型当前行为的可行见解。源数据已公开提供在 https://github.com/PKU-YuanGroup/ImgEdit
查看 arXiv 页面查看 PDF

评论

JingyeChen22JingyeChen22