⏶2
SpotEdit:视觉引导的图像编辑方法评估
发表
由
taesiri 提交

作者: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
摘要
视觉引导图像编辑,其中编辑受视觉线索和文本提示的条件制约,已成为细粒度、可控内容生成的一种强大范式。尽管最近的生成模型已经展现出卓越的能力,但现有的评估仍然简单且不能充分代表真实的编辑挑战。我们提出了 SpotEdit,一个全面的基准测试,旨在系统地评估跨不同扩散、自回归和混合生成模型的视觉引导图像编辑方法,揭示了显著的性能差异。为了解决一个关键但未被充分探索的挑战,我们的基准测试包含一个专门针对幻觉的组件,突出了像 GPT-4o 这样的领先模型如何经常虚构视觉线索的存在并错误地执行编辑任务。我们的代码和基准测试已公开发布在 https://github.com/SaraGhazanfari/SpotEdit。
> 视觉引导图像编辑,其中编辑以视觉线索和文本提示为条件,已成为精细控制内容生成的强大范例。尽管最近的生成模型表现出了卓越的能力,但现有的评估仍然简单且未能充分代表真实的编辑挑战。我们提出了SpotEdit,一个全面的基准,旨在系统地评估各种扩散、自回归和混合生成模型上的视觉引导图像编辑方法,并揭示了显著的性能差异。为了解决一个关键但研究不足的挑战,我们的基准包含一个专门的幻觉组件,突显了包括GPT-4o在内的领先模型如何经常幻觉出视觉线索的存在并错误地执行编辑任务。