⏶7
MMAU-Pro:用于音频通用智能整体评估的具有挑战性且全面的基准
发表
由
Ghosh 提交
作者:
Sonal Kumar, Šimon Sedláček, Vaibhavi Lokegaonkar,
Fernando López, Wenyi Yu,
Nishit Anand, Hyeonggon Ryu, Lichang Chen, Maxim Plička, Miroslav Hlaváček, William Fineas Ellingwood, Sathvik Udupa, Siyuan Hou, Allison Ferner, Sara Barahona, Cecilia Bolaños, Satish Rahi, Laura Herrera-Alarcón, Satvik Dixit, Siddhi Patil, Soham Deshmukh, Lasha Koroshinadze, Yao Liu, Leibny Paola Garcia Perera, Eleni Zanou, Themos Stafylakis, Joon Son Chung, David Harwath, Chao Zhang, Dinesh Manocha, Alicia Lozano-Diez, Santosh Kesiraju,
Sreyan Ghosh,
Ramani Duraiswami



摘要
音频理解——包括语音、非语音和音乐——对于实现人类水平的智能至关重要。因此,人工智能代理必须展示整体音频理解能力,才能被认定为通用智能。然而,全面评估听觉智能仍然具有挑战性。为了弥补这一空白,我们引入了MMAU-Pro,这是评估人工智能系统音频智能的最全面、最严格策划的基准。MMAU-Pro包含5,305个实例,每个实例都有一或多个音频与人类专家生成的问题-答案对配对,涵盖语音、声音、音乐及其组合。与现有基准不同,MMAU-Pro通过49种独特技能和多个复杂维度评估听觉智能,包括长篇音频理解、空间音频推理、多音频理解等。所有问题都经过精心设计,需要审慎的多跳推理,包括多项选择和开放式回答格式。重要的是,音频数据直接来源于“野外”,而不是来自已知分布的现有数据集。我们评估了22个领先的开源和专有多模态AI模型,揭示了显著的局限性:即使是Gemini 2.5 Flash和Audio Flamingo 3等最先进的模型也分别仅达到59.2%和51.7%的准确率,在多个类别中接近随机性能。我们广泛的分析突出了具体的不足之处,并提供了新的见解,为社区增强未来AI系统在音频通用智能方面的发展提供了可操作的视角。基准和代码可在https://sonalkum.github.io/mmau-pro获得。
MMAU-Pro 是一个全面的基准测试,用于评估多模态系统中音频智能的表现。该基准测试即将公开发布。