RefEdit:用于改进基于指令的图像编辑模型在指代表达方面性能的基准与方法

发表
Maitreya PatelMaitreya Patel 提交
作者: Bimsara Pathiraja, Maitreya PatelMaitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral

摘要

尽管在反演和基于指令的图像编辑方面取得了最新进展,但现有方法主要擅长编辑单个突出对象,而在应用于包含多个实体的复杂场景时则表现不佳。为了量化这一差距,我们首先引入了 RefEdit-Bench,这是一个基于 RefCOCO 的严谨真实世界基准,即使是经过数百万样本训练的基线模型也表现不佳。为克服这一局限性,我们推出了 RefEdit——一个基于指令的编辑模型,通过我们可扩展的合成数据生成流程进行训练。我们的 RefEdit 仅使用 20,000 个编辑三元组进行训练,其性能优于 Flux/SD3 模型上经过数百万数据训练的基线模型。在各种基准测试中的广泛评估表明,我们的模型不仅在引用表达任务中表现出色,还在传统基准测试中提升了性能,取得了与闭源方法相媲美的最先进结果。我们发布了数据和检查点以促进可复现性。
查看 arXiv 页面查看 PDF

评论