⏶8
MMMG: 一个用于多任务多模态生成的全面可靠评估套件
发表
由
Yushi Hu 提交
作者:
Jihan Yao,
Yushi Hu, Yujie Yi, Bin Han, Shangbin Feng, Guang Yang, Bingbing Wen, Ranjay Krishna, Lucy Lu Wang, Yulia Tsvetkov, Noah A. Smith, Banghua Zhu
摘要
自动评估多模态生成是一个重大挑战,因为自动度量标准往往难以与人工评估可靠对齐,特别是对于涉及多种模态的复杂任务。为了解决这个问题,我们提出了 MMMG,一个全面且与人类对齐的多模态生成基准,涵盖 4 种模态组合(图像、音频、图文交错、音频文本交错),重点关注对生成模型构成重大挑战的任务,同时通过模型和程序的结合实现可靠的自动评估。MMMG 包含 49 项任务(包括 29 项新开发的任务),每项任务都有精心设计的评估流程,以及 937 条指令,系统地评估多模态生成模型的推理、可控性和其他关键能力。广泛验证表明,MMMG 与人工评估高度对齐,平均一致性达到 94.3%。对 24 个多模态生成模型进行的基准测试结果显示,即使是最先进的模型 GPT Image,在图像生成方面的准确率达到 78.3%,但在多模态推理和交错生成方面仍显不足。此外,结果表明音频生成方面还有相当大的改进空间,这突显了未来研究的重要方向。

一个全面可靠的多模态生成(图像、音频、图文交错、音文交错)基准
✅ 每个任务都经过精心设计的自动评估流程以确保可靠性
✅ 比其他基准更符合人类判断
✅ 全面:4种模态组合,49个任务,937条指令