T2I-ReasonBench:推理赋能文本到图像生成的基准测试

发表
Kaiyue SunKaiyue Sun 提交
作者: Kaiyue SunKaiyue Sun, Rongyao Fang, Chengqi Duan, Xian Liu, Xihui Liu

摘要

我们提出T2I-ReasonBench,一个评估文本到图像(T2I)模型推理能力的基准。它包含四个维度:成语 理解、文本图像设计、实体推理和 科学推理。我们提出一个两阶段评估协议来评估 推理准确性和图像质量。我们对各种T2I生成 模型进行基准测试,并对其性能进行全面分析。
查看 arXiv 页面查看 PDF
T2I-ReasonBench:推理赋能文本到图像生成的基准测试
T2I-ReasonBench:推理赋能文本到图像生成的基准测试
T2I-ReasonBench:推理赋能文本到图像生成的基准测试

评论

Kaiyue SunKaiyue Sun
论文作者
论文提交者

本文介绍了 T2I-ReasonBench,一个旨在探索 T2I 模型推理边界的新型基准。T2I-ReasonBench 包含 800 个精心设计的提示,分为四个维度:(1) 成语解释,(2) 文本图像设计,(3) 实体推理,和 (4) 科学推理。这些维度挑战模型推断潜在含义、整合领域知识和解决上下文歧义。为了量化性能,我们引入了一个两阶段评估框架:一个大型语言模型 (LLM) 生成特定于提示的问题-标准对,以评估图像是否包含正确推理产生的必要元素;然后,一个多模态 LLM (MLLM) 根据这些标准对生成的图像进行评分。对 14 个最先进 T2I 模型的实验显示,开源模型在基于推理的生成方面存在明显限制,而 GPT-Image-1 等专有模型在推理和知识整合方面表现更强。我们的研究结果强调了改进下一代 T2I 系统的推理能力是必要的。这项工作提供了一个基础性的基准和评估协议,以指导未来在推理驱动的 T2I 合成方面的研究。