FLUX-Reason-6M & PRISM-Bench: 百万级文本到图像推理数据集和综合基准

发表
taesiritaesiri 提交
作者: Rongyao FangRongyao Fang, Aldrich Yu, Duan ChengqiChengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li

摘要

AI 生成总结
FLUX-Reason-6M 和 PRISM-Bench 解决了文本到图像模型中缺乏以推理为中心的数据集和基准的问题,提供了大规模数据集和评估标准以提高模型性能。
开源文本到图像(T2I)模型的进步受到缺乏大规模、面向推理的数据集和全面评估基准的阻碍,导致与领先的闭源系统存在性能差距。为了应对这一挑战,我们引入了 FLUX-Reason-6M 和 PRISM-Bench(精确鲁棒图像合成测量基准)。FLUX-Reason-6M 是一个庞大的数据集,包含 600 万张高质量的 FLUX 生成图像和 2000 万个双语(英语和中文)描述,专门用于教授复杂推理。图像根据六个关键特征进行组织:想象力、实体、文本渲染、风格、情感和构图,并设计了显式的生成链式思考(GCoT)来详细分解图像生成步骤。整个数据策展花费了 15,000 A100 GPU 天,为社区提供了以前在大型工业实验室之外无法获得资源。PRISM-Bench 提供了一个新颖的评估标准,包含七个不同的轨道,包括一个强大的使用 GCoT 的长文本挑战。通过精心设计的提示,它利用先进的视觉语言模型对提示-图像对齐和图像美学进行细致的人类对齐评估。我们在 PRISM-Bench 上对 19 个领先模型的广泛评估揭示了关键的性能差距,并突出了需要改进的特定领域。我们发布了数据集、基准和评估代码,以催化下一波面向推理的 T2I 生成。项目主页:https://flux-reason-6m.github.io/ .
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

开源文本到图像(T2I)模型的进步受到了缺乏大规模、专注于推理的数据集和全面评估基准的阻碍,导致与领先的闭源系统相比存在性能差距。为了应对这一挑战,我们引入了 FLUX-Reason-6M 和 PRISM-Bench(精确而鲁棒的图像合成测量基准)。FLUX-Reason-6M 是一个庞大的数据集,包含 600 万张高质量的 FLUX 生成图像和 2000 万条双语(英语和中文)描述,专门用于教授复杂的推理。图像根据六个关键特征进行组织:想象力、实体、文本渲染、风格、情感和构图,并设计了明确的生成思维链(GCoT)来提供图像生成步骤的详细分解。整个数据策展耗费了 15,000 个 A100 GPU 天,为社区提供了一个在大型工业实验室之外无法获得的资源。PRISM-Bench 提供了一个新颖的评估标准,包含七个不同的轨道,包括一个使用 GCoT 的强大的长文本挑战。通过精心设计的主提示,它利用先进的视觉-语言模型进行细致的人类匹配评估,以评估提示-图像匹配度和图像美感。我们对 PRISM-Bench 上 19 个领先模型的广泛评估揭示了关键的性能差距,并突出了需要改进的具体领域。我们发布了数据集、基准和评估代码,以催化下一波面向推理的 T2I 生成。