自回归与流匹配:文本到音乐生成建模范式的比较研究

发表
Michael HassidMichael Hassid 提交
作者: Or TalOr Tal, Felix KreukFelix Kreuk, Yossi Adi

摘要

文本到音乐生成领域的最新进展使模型能够合成高质量的音乐片段、完整的作品,甚至响应细粒度的控制信号,例如和弦进行。最先进 (SOTA) 的系统在许多方面差异显著,例如训练数据集、建模范式和架构选择。这种多样性使得公平评估模型以及查明哪些设计选择对性能影响最大变得复杂。虽然数据和架构等因素很重要,但在本研究中,我们专门关注建模范式。我们进行了一项系统的实证分析,以隔离其影响,提供有关相关权衡和涌现行为的见解,从而指导未来的文本到音乐生成系统。具体而言,我们比较了两种可以说是最常见的建模范式:自回归解码和条件流匹配。我们通过使用相同的数据集、训练配置和相似的骨干架构从头开始训练所有模型来进行受控比较。性能在多个维度上进行评估,包括生成质量、对推理配置的鲁棒性、可伸缩性、对文本和时间对齐条件的遵循程度,以及以音频修复形式出现的编辑能力。这项比较研究阐明了每种范式的独特优势和局限性,提供了可操作的见解,可以为文本到音乐生成不断发展的未来架构和训练决策提供信息。音频示例可在以下网址获取:https://huggingface.co/spaces/ortal1602/ARvsFM
查看 arXiv 页面查看 PDF

评论

Michael HassidMichael Hassid
论文提交者

自回归与流匹配:文本到音乐生成建模范式的比较研究