⏶4
WorldGenBench:一个用于推理驱动的文本到图像生成的集成了世界知识的基准测试
发表
由
DaoanZhang 提交
作者:
Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
摘要
近年来,文本到图像 (T2I) 生成技术取得了令人瞩目的进展,但现有模型对于需要丰富的世界知识和隐式推理的提示仍然难以处理:这两点对于在现实场景中生成语义准确、连贯且符合上下文的图像至关重要。为了弥合这一差距,我们引入了 WorldGenBench,这是一个旨在系统评估 T2I 模型世界知识基础和隐式推理能力的基准,涵盖人文和自然领域。我们提出了知识核对表分数 (Knowledge Checklist Score),这是一种结构化指标,用于衡量生成的图像在多大程度上满足关键的语义期望。对 21 个最先进模型的实验表明,虽然扩散模型在开源方法中处于领先地位,但 GPT-4o 等专有自回归模型在推理和知识整合方面表现出明显更强的能力。我们的发现强调了下一代 T2I 系统需要更深入的理解和推理能力。项目页面:https://dwanzhang-ai.github.io/WorldGenBench/
近年来,文本到图像(T2I)生成取得了令人瞩目的进展,然而现有模型对于需要丰富的世界知识和隐式推理的提示词仍存在困难——这两者对于在现实世界场景中生成语义准确、连贯且符合上下文的图像至关重要。为了弥补这一差距,我们推出了 WorldGenBench,这是一个旨在系统评估 T2I 模型世界知识基础和隐式推理能力的基准,涵盖人文和自然领域。我们提出了知识清单得分(Knowledge Checklist Score),这是一种结构化指标,用于衡量生成图像满足关键语义预期的程度。对 21 种最先进模型的实验表明,虽然扩散模型在开源方法中处于领先地位,但像 GPT-4o 这样的专有自回归模型表现出明显更强的推理和知识整合能力。我们的研究结果强调了下一代 T2I 系统需要具备更深层次的理解和推理能力。项目页面:https://dwanzhang-ai.github.io/WorldGenBench/