⏶9
Uni-MMMU:一个海量跨学科多模态统一基准
发表
由
kzou 提交

作者:
Kai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu

摘要
AI 生成总结
Uni-MMMU 是一个基准,用于评估跨多个领域的视觉理解和生成之间的双向协同作用,深入了解它们的集成和性能。统一的多模态模型旨在同时实现视觉理解和生成,但当前的基准很少检查它们的真正集成。现有的评估要么孤立地处理这两种能力,要么忽略了固有耦合它们的任务。为了弥合这一差距,我们提出了 Uni-MMMU,这是一个全面且学科感知的基准,它系统地揭示了跨八个以推理为中心的领域(包括科学、编码、数学和谜题)的生成和理解之间的双向协同作用。每个任务都经过双向耦合,要求模型 (i) 利用概念理解来指导精确的视觉合成,或 (ii) 利用生成作为分析推理的认知支架。Uni-MMMU 包含可验证的中间推理步骤、独特的基本事实以及文本和视觉输出的可复现评分协议。通过对最先进的统一模型、仅生成模型和仅理解模型的广泛评估,我们揭示了显著的性能差异和跨模态依赖性,提供了关于这些能力何时以及如何相互强化的新见解,并为推进统一模型奠定了可靠的基础。
这是一个新颖的基准,具有双向耦合的任务,旨在评估统一模型如何协同地利用生成来辅助理解,以及理解来指导生成。