Complex-Edit:用于复杂度可控图像编辑基准的 CoT 风格指令生成

发表
Cihang XieCihang Xie 提交
作者: Siwei YangSiwei Yang, Mude Hui, Bingchen ZhaoBingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie

摘要

我们推出了 Complex-Edit,这是一个综合基准,旨在系统地评估基于指令的图像编辑模型在不同复杂程度指令下的性能。为了开发这个基准,我们利用 GPT-4o 大规模自动收集了多样化的编辑指令集。我们的方法遵循结构良好的“Chain-of-Edit”流程:我们首先独立生成单独的原子编辑任务,然后将它们整合以形成连贯、复杂的指令。此外,我们还引入了一套指标来评估编辑性能的各个方面,以及一个支持大规模评估的基于 VLM 的自动评估流程。我们的基准产生了一些值得注意的见解:1) 开源模型的性能明显逊色于专有的闭源模型,并且随着指令复杂性的增加,性能差距也在扩大;2) 指令复杂性的增加主要损害了模型从输入图像中保留关键元素和保持整体美学质量的能力;3) 将复杂指令分解为一系列原子步骤,并以逐步方式执行,会显著降低跨多个指标的性能;4) 简单的 Best-of-N 选择策略可以提高直接编辑和逐步顺序方法的结果;5) 我们观察到“合成数据诅咒”:当合成数据参与模型训练时,来自此类模型的编辑图像往往会随着编辑指令复杂性的增加而显得越来越合成——这种现象也令人惊讶地体现在最新的 GPT-4o 输出中。
查看 arXiv 页面查看 PDF

评论

Cihang XieCihang Xie
论文提交者

我们推出了 𝙲𝚘𝚖𝚙𝚕𝚎𝚡-𝙴𝚍𝚒𝚝,这是一个全面的基准,旨在系统地评估跨不同复杂程度指令的基于指令的图像编辑模型。为了开发此基准,我们利用 GPT-4o 以规模化方式自动收集各种编辑指令。我们的方法遵循结构良好的“Chain-of-Edit”管道:我们首先独立生成单个原子编辑任务,然后将它们集成以形成连贯的复杂指令。此外,我们引入了一套指标来评估编辑性能的各个方面,以及一个基于 VLM 的自动评估管道,该管道支持大规模评估。我们的基准测试产生了一些值得注意的见解:1) 开源模型的性能明显低于专有的闭源模型,并且随着指令复杂性的增加,性能差距扩大;2) 指令复杂性的增加主要损害了模型保留输入图像中的关键元素并保持整体美学质量的能力;3) 将复杂指令分解为一系列原子步骤,并以逐步方式执行,会显着降低跨多个指标的性能;4) 直接编辑和逐步顺序方法的最佳 N 选择策略都提高了结果;5) 我们观察到“合成数据诅咒”:当合成数据参与模型训练时,来自此类模型的编辑图像往往会随着编辑指令复杂性的增加而显得越来越合成——这种现象也耐人寻味地体现在最新的 GPT-4o 输出中。项目页面是 https://ucsc-vlaa.github.io/Complex-Edit/。