⏶17
GIR-Bench:用于生成具有推理能力的图像的多功能基准
发表
由
taesiri 提交

作者:
Hongxiang Li, Yaowei Li, Bin Lin, Yuwei Niu, Yuhang Yang, Xiaoshuang Huang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Long Chen
摘要
AI 生成总结
GIR-Bench 评估了统一的多模态模型在理解-生成一致性、以推理为中心的文本到图像生成以及编辑中的多步推理方面的能力,突显了它们能力的差距。统一的多模态模型将大型语言模型的推理能力与图像理解和生成相结合,为先进的多模态智能展现出巨大潜力。然而,社区仍然缺乏一个严谨的以推理为中心的基准来系统地评估理解和生成之间的对齐以及它们在复杂视觉任务中的泛化潜力。为此,我们引入了GIR-Bench,一个评估统一模型在三个互补视角下的全面基准。首先,我们研究了理解-生成一致性(GIR-Bench-UGC),询问模型是否能在理解和生成任务中一致地利用相同的知识。其次,我们研究模型是否能执行需要应用逻辑约束和隐式知识来生成忠实视觉内容的推理型文本到图像生成(GIR-Bench-T2I)。第三,我们评估模型是否能处理编辑中的多步推理(GIR-Bench-Edit)。对于每个子集,我们精心设计了针对每个任务定制的不同任务特定评估流程。这使得细粒度且可解释的评估成为可能,同时减轻了流行的MLLM-as-a-Judge范式的偏差。对各种统一模型和仅生成系统的广泛消融研究表明:尽管统一模型在驱动式视觉任务方面能力更强,但它们在理解和生成之间仍然存在持续的差距。GIR-Bench的数据和代码可在https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}获取。
评论
对多模态统一模型的理解-生成一致性(UGC)、文本到图像和编辑进行以推理为中心的评估,揭示了推理和忠实生成之间持续存在的差距。 🔗 项目页面:https://hkust-longgroup.github.io/GIR-Bench/ 💻 Github 代码:https://github.com/HKUST-LongGroup/GIR-Bench/tree/main?tab=readme-ov-file 📊 HF 数据集:https://huggingface.co/datasets/lihxxx/GIR-Bench 🌟 我们热烈欢迎社区关注、使用并为我们的基准测试做出贡献!
统一的多模态模型将大型语言模型的推理能力与图像理解和生成相结合,为先进的多模态智能显示出巨大的前景。然而,社区仍然缺乏一个严格的以推理为中心的基准测试来系统地评估理解和生成之间的对齐,以及它们在复杂视觉任务中的泛化潜力。为此,我们引入了 GIR-Bench,一个全面的基准测试,从三个互补的角度评估统一模型。首先,我们调查理解-生成一致性(GIR-Bench-UGC),询问模型是否能在理解和生成任务中一致地利用相同的知识。其次,我们调查模型是否可以执行需要应用逻辑约束和隐式知识来生成忠实视觉内容的推理文本到图像生成(GIR-Bench-T2I)。第三,我们评估模型是否能处理编辑中的多步推理(GIR-Bench-Edit)。对于每个子集,我们仔细设计了针对每个任务量身定制的不同特定任务评估流程。这使得进行细粒度且可解释的评估,同时减轻了普遍存在的 MLLM-as-a-Judge 范式的偏差。对各种统一模型和仅生成系统的广泛消融研究表明:尽管统一模型在推理驱动的视觉任务方面能力更强,但它们在理解和生成之间仍然存在持续的差距。