⏶10
MusiXQA:提升多模态大型语言模型中的视觉音乐理解能力
发表
由
Jian Chen 提交

作者:
Jian Chen,
Wenye Ma, Penghang Liu, Wei Wang,
Tengwei Song, Ming Li, Chenguang Wang, Ruiyi Zhang, Changyou Chen

摘要
多模态大型语言模型(MLLM)在自然图像、富文本文档和图形设计中已展现出卓越的视觉推理能力。然而,它们在解读乐谱方面的能力仍未得到充分探索。为了弥补这一差距,我们推出了 MusiXQA,这是第一个用于评估和提升 MLLM在乐谱理解方面的能力的综合数据集。MusiXQA 具有通过 MusiXTeX 生成的高质量合成乐谱,并带有结构化的注释,涵盖音符的音高和时值、和弦、谱号、调号/拍号以及文本,从而能够支持各种视觉问答任务。通过广泛的评估,我们揭示了当前最先进的MLLM在该领域中的显著局限性。除了基准测试之外,我们还开发了 Phi-3-MusiX,这是一个在我们数据集上微调的 MLLM,与基于 GPT 的方法相比,取得了显著的性能提升。所提出的数据集和模型为未来 MLLM 在乐谱理解方面的进步奠定了基础。代码、数据和模型将在接受后发布。
我们发布了 MusiXQA,旨在突出当前多模态大语言模型的一个盲点——它们无法理解结构化的音乐符号。 我们的基准测试提供了一个严格的测试平台和一个公共资源,以鼓励在这个方向上的进一步研究。 Phi‑3‑MusiX 提供了一个有希望的初步尝试。