⏶3
CultureMERT: 跨文化音乐表征学习的持续预训练
发表
由
Angelos-Nikolaos Kanatas 提交
作者:
Angelos-Nikolaos Kanatas,
Charilaos Papaioannou,
Alexandros Potamianos
摘要
音乐基础模型的最新进展改善了音频表示学习,但其在不同音乐传统中的有效性仍然有限。我们引入了CultureMERT-95M,一个多文化适应的基础模型,旨在增强跨文化音乐表示学习和理解。为此,我们提出了一种两阶段的持续预训练策略,该策略整合了学习率的再升温和再衰减,即使在有限的计算资源下也能实现稳定的适应。在包含希腊、土耳其和印度音乐传统的650小时多文化混合数据上进行训练,使得在各种非西方音乐自动标签任务中的ROC-AUC和AP平均提高了4.9%,超越了以往的最新技术,同时对以西方为中心的基准的遗忘程度最小。我们进一步研究了任务算术,这是一种多文化适应的替代方法,它在权重空间中合并了单文化适应模型。任务算术在非西方自动标签任务上的表现与我们的多文化训练模型不相上下,并且在西方数据集上没有退化。跨文化评估表明,单文化模型在不同音乐传统之间的迁移效果各异,而多文化适应模型则实现了最佳的整体性能。为了支持世界音乐表示学习的研究,我们公开发布了CultureMERT-95M和CultureMERT-TA-95M,以促进开发更具文化意识的音乐基础模型。
已被第26届国际音乐信息检索大会(ISMIR 2025)接收,该会议将在韩国大田举行。