⏶3
GIE-Bench:迈向文本引导图像编辑的扎实评估
发表
由
Yusu Qian 提交

作者: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
摘要
使用自然语言指令编辑图像已成为修改视觉内容的一种自然且富有表现力的方式;然而,评估这类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像-文本相似度指标,但这些指标缺乏精确性。在本文中,我们引入了一个旨在以更可靠的方式评估文本引导的图像编辑模型的新基准,评估维度包括两个关键方面:(i) 功能正确性,通过自动生成的多项选择题进行评估,这些问题用于验证预期修改是否成功应用;以及 (ii) 图像内容保留性,通过使用对象感知遮罩技术和保留性评分,确保图像中非目标区域保持视觉一致。该基准包含涵盖 20 个不同内容类别的 1000 多个高质量编辑示例,每个示例都标注了详细的编辑指令、评估问题和空间对象遮罩。我们进行了一项大规模研究,比较了文本引导图像编辑领域的最新旗舰模型 GPT-Image-1 与几种最先进的编辑模型,并根据人工评分验证了我们的自动指标。结果表明,GPT-Image-1 在指令遵循准确性方面领先,但经常过度修改图像中不相关的区域,这凸显了当前模型行为中的一个关键权衡。GIE-Bench 提供了一个可扩展、可复现的框架,用于推进文本引导图像编辑的更准确评估。
使用自然语言指令编辑图像已成为修改视觉内容的自然且富有表现力的方式;然而,评估这类模型的性能仍然具有挑战性。现有的评估方法通常依赖于图像-文本相似度指标(如 CLIP),但这些指标缺乏精确性。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导的图像编辑模型,重点关注两个关键维度:(i) 功能正确性,通过自动生成的选择题来评估,这些题目验证预期的更改是否成功应用;以及 (ii) 图像内容保持,这通过对象感知的遮罩技术和保持评分来确保图像中未被锁定的区域保持视觉上的一致性。该基准包括 20 个不同内容类别中的 1000 多个高质量编辑示例,每个示例都标注了详细的编辑指令、评估问题和空间对象遮罩。我们进行了一项大规模研究,将文本引导图像编辑领域的最新旗舰模型 GPT-Image-1 与几种最先进的编辑模型进行比较,并对照人工评分验证了我们的自动指标。结果表明,GPT-Image-1 在指令遵循准确性方面处于领先地位,但经常过度修改图像中不相关的区域,这突显了当前模型行为中的一个关键权衡。GIE-Bench 提供了一个可扩展、可复现的框架,用于推动对文本引导图像编辑进行更准确的评估。