⏶53
CMI-Bench:一个用于评估音乐指令遵循的综合基准
发表
由
Yinghao Ma 提交
作者: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
摘要
音频-文本大型语言模型(LLM)的最新进展为音乐理解和生成开辟了新的可能性。然而,现有基准的范围有限,通常依赖于简化任务或多项选择评估,未能反映现实世界音乐分析的复杂性。我们将各种传统的MIR标注重新诠释为指令遵循格式,并引入了CMI-Bench,这是一个全面的音乐指令遵循基准,旨在评估音频-文本LLM在多样化的音乐信息检索(MIR)任务上的表现。这些任务包括:流派分类、情感回归、情感标注、乐器分类、音高估计、音调检测、歌词转录、旋律提取、声乐技巧识别、乐器演奏技巧检测、音乐标注、音乐描述和(下行)节拍跟踪,它们反映了MIR研究中的核心挑战。与之前的基准不同,CMI-Bench采用了与以往最先进的MIR模型一致的标准化评估指标,确保了与监督方法的直接可比性。我们提供了一个评估工具包,支持所有开源音频-文本LLM,包括LTU、Qwen-audio、SALMONN、MusiLingo等。实验结果揭示了LLM与监督模型之间显著的性能差距,以及它们的文化、年代和性别偏见,这突出了当前模型在处理MIR任务方面的潜力和局限性。CMI-Bench为评估音乐指令遵循建立了统一的基础,推动了音乐感知型LLM的进展。
📄Arxiv,被第26届国际音乐信息检索学会会议 (ISMIR 2025) 接受 🎉
🖥️GitHub
🤗Dataset,测试集音频采用CC-BY-NC-SA4.0许可
全面的任务覆盖:CMI-Bench 包含14项多样化的音乐信息检索 (MIR) 任务,超越了简单的分类,涵盖了回归、描述和复杂的序列任务。
标准化评估:与以往依赖多项选择题的基准不同,CMI-Bench 采用与MIR文献一致的开放式、任务特定指标(例如,使用mir_eval),可以直接与传统监督模型进行比较。
评估工具包:我们提供了一个完整的评估工具包,支持所有主流的开源音频-文本大型语言模型,实现标准化和可复现的基准测试。
深入分析:该基准有助于对模型能力进行更深入的分析,包括泛化能力、提示敏感性以及与文化和性别相关的偏见。
马英豪是英国研究与创新人工智能与音乐博士培训中心的研究学生,由英国研究与创新局 [资助号 EP/S022694/1] 提供支持。Emmanouil Benetos 由英国皇家工程院/利弗休姆信托研究基金 [资助号 LTRF2223-19-106] 提供支持。
马英豪也衷心感谢北京大学中国音乐学社学生民乐团(简称CMI,与论文标题无关)。我们热烈庆祝乐团成立20周年!