⏶88

Step1X-Edit：一个用于通用图像编辑的实用框架

04月24日发表

04月25日由 Wei Cheng 提交

作者: Shiyu Liu, Yucheng Han, xing Peng Xing, Fukun Yin, Rui Wang, Wei Cheng, Jiaqi Liao, Yingming Wang, Honghao Fu, Chunrui Han, Guopeng Li, Yuang Peng, Quan Sun, Jingwei Wu, Yan Cai, Zheng Ge, Ranchen Ming, Lei Xia, Xianfang Zeng, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Gang Yu Gang Yu, Daxin Jiang

摘要

近年来，图像编辑模型取得了显著而迅速的发展。最近发布的尖端多模态模型，如 GPT-4o 和 Gemini2 Flash，引入了极具前景的图像编辑能力。这些模型在满足绝大多数用户驱动的编辑需求方面展现出令人印象深刻的能力，标志着图像处理领域的重大进步。然而，开源算法与这些闭源模型之间仍然存在巨大差距。因此，在本文中，我们旨在发布一种最先进的图像编辑模型，称为 Step1X-Edit，它可以提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能。更具体地说，我们采用多模态大型语言模型 (MLLM) 来处理参考图像和用户的编辑指令。从中提取出潜在嵌入，并与扩散图像解码器集成以获得目标图像。为了训练该模型，我们构建了一个数据生成流水线来生成高质量的数据集。为了进行评估，我们开发了 GEdit-Bench，一个根植于现实世界用户指令的新型基准。GEdit-Bench 上的实验结果表明，Step1X-Edit 在很大程度上优于现有开源基线，并且接近领先的专有模型的性能，从而为图像编辑领域做出了重大贡献。

查看 arXiv 页面查看 PDF

Wei Cheng

论文作者

论文提交者

代码：https://github.com/stepfun-ai/Step1X-Edit

Medhat

我想让你给我做一个像Xena - Group Voice Party这样的语音聊天室App。

Step1X-Edit：一个用于通用图像编辑的实用框架

摘要

评论