⏶2
MMIG-Bench:迈向全面和可解释的多模态图像生成模型评估
发表
由
HangHua 提交
作者: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
摘要
近期多模态图像生成器,例如 GPT-4o、Gemini 2.0 Flash 和 Gemini 2.5 Pro,在遵循复杂指令、编辑图像和保持概念一致性方面表现出色。然而,它们目前仍然使用分离的工具包进行评估:缺乏多模态条件的文本到图像 (T2I) 基准,以及忽略合成语义和常识的定制图像生成基准。我们提出了 MMIG-Bench,一个全面的多模态图像生成基准,它统一了这些任务,通过将 4,850 个丰富标注的文本提示与跨越人类、动物、物体和艺术风格等 380 个主题的 1,750 个多视图参考图像配对。MMIG-Bench 配备了一个三级评估框架:(1) 用于评估视觉伪影和物体身份保持的低级指标;(2) 新颖的方面匹配得分 (AMS):一种基于 VQA 的中级指标,可提供细粒度的提示-图像对齐,并显示与人类判断高度相关;和 (3) 用于评估美学和人类偏好的高级指标。使用 MMIG-Bench,我们对 17 个最先进的模型(包括 Gemini 2.5 Pro、FLUX、DreamBooth 和 IP-Adapter)进行了基准测试,并通过 3.2 万份人工评分验证了我们的指标,深入了解了架构和数据设计。我们将发布数据集和评估代码,以促进严格、统一的评估,并加速未来在多模态图像生成领域的创新。
最近的多模态图像生成器,如 GPT-4o、Gemini 2.0 Flash 和 Gemini 2.5 Pro,在遵循复杂指令、编辑图像和保持概念一致性方面表现出色。然而,它们仍然使用不相关的工具包进行评估:缺乏多模态条件的文本到图像 (T2I) 基准,以及忽视组合语义和常识的定制图像生成基准。我们提出了 MMIG-Bench,这是一个全面的多模态图像生成基准,通过将 4,850 个丰富标注的文本提示与跨越人类、动物、物体和艺术风格等 380 个主题的 1,750 张多视角参考图像配对,统一了这些任务。MMIG-Bench 配备了三级评估框架:(1) 用于衡量视觉伪影和物体身份保持的低级指标;(2) 新颖的方面匹配得分 (AMS):一种基于 VQA 的中级指标,能够实现细粒度的提示-图像对齐,并与人类判断显示出很强的相关性;以及 (3) 用于衡量美学和人类偏好的高级指标。使用 MMIG-Bench,我们对包括 Gemini 2.5 Pro、FLUX、DreamBooth 和 IP-Adapter 在内的 17 个最先进的模型进行了基准测试,并通过 3.2 万个人工评分验证了我们的指标,从而深入了解了模型架构和数据设计。我们将发布数据集和评估代码,以促进严格、统一的评估,并加速未来在多模态图像生成领域的创新。