Step1X-Edit:一个用于通用图像编辑的实用框架

发表
Wei ChengWei Cheng 提交
作者: Shiyu Liu, Yucheng Han, xingPeng Xing, Fukun Yin, Rui Wang, Wei ChengWei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang PengYuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang YuGang Yu, Daxin Jiang

摘要

近年来,图像编辑模型取得了显著而迅速的发展。最近发布的尖端多模态模型,如 GPT-4o 和 Gemini2 Flash,引入了极具前景的图像编辑能力。这些模型在满足绝大多数用户驱动的编辑需求方面展现出令人印象深刻的能力,标志着图像处理领域的重大进步。然而,开源算法与这些闭源模型之间仍然存在巨大差距。因此,在本文中,我们旨在发布一种最先进的图像编辑模型,称为 Step1X-Edit,它可以提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能。更具体地说,我们采用多模态大型语言模型 (MLLM) 来处理参考图像和用户的编辑指令。从中提取出潜在嵌入,并与扩散图像解码器集成以获得目标图像。为了训练该模型,我们构建了一个数据生成流水线来生成高质量的数据集。为了进行评估,我们开发了 GEdit-Bench,一个根植于现实世界用户指令的新型基准。GEdit-Bench 上的实验结果表明,Step1X-Edit 在很大程度上优于现有开源基线,并且接近领先的专有模型的性能,从而为图像编辑领域做出了重大贡献。
查看 arXiv 页面查看 PDF

评论

Wei ChengWei Cheng
论文作者
论文提交者

代码:https://github.com/stepfun-ai/Step1X-Edit

MedhatMedhat

我想让你给我做一个像Xena - Group Voice Party这样的语音聊天室App。