⏶42
KRIS-Bench: 评测下一代智能图像编辑模型
发表
由
Yongliang 提交
作者: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng,
Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang

摘要
多模态生成模型的最新进展极大地推动了基于指令的图像编辑。然而,尽管这些模型能够生成在视觉上看起来合理的结果,它们在基于知识推理的编辑任务方面的能力仍未得到充分探索。在本文中,我们引入了 KRIS-Bench(图像编辑系统中的基于知识推理基准),这是一个旨在通过认知知情的视角评估模型的诊断性基准。借鉴教育理论,KRIS-Bench 将编辑任务分为三种基础知识类型:事实性知识、概念性知识和程序性知识。基于这一分类法,我们设计了涵盖 7 个推理维度的 22 个代表性任务,并发布了 1,267 个高质量标注编辑实例。为了支持细粒度评估,我们提出了一个综合协议,其中包含一个新颖的知识合理性指标,该指标通过知识提示得到增强,并通过人工研究进行校准。在 10 个最先进模型上的实验结果揭示了推理性能上的显著差距,凸显了以知识为中心的基准对于推动智能图像编辑系统发展的重要性。
多模态生成模型的最新进展使得基于指令的图像编辑取得了显著进展。然而,尽管这些模型能够生成视觉上逼真的输出,但其基于知识推理的编辑任务能力仍未得到充分探索。在本文中,我们引入了 KRIS-Bench(图像编辑系统中的知识推理基准),这是一个诊断基准,旨在通过认知角度评估模型。KRIS-Bench 借鉴教育理论,将编辑任务分为三种基础知识类型:事实型、概念型和程序型。基于此分类法,我们设计了涵盖 7 个推理维度的 22 个代表性任务,并发布了 1,267 个高质量标注的编辑实例。为了支持细粒度评估,我们提出了一个全面的协议,其中包含一个新颖的知识合理性度量,并通过知识提示得到增强,并通过人工研究进行校准。对 10 个最先进模型的实证结果揭示了推理性能上的显著差距,强调了需要以知识为中心的基准来推动智能图像编辑系统的发展。