MuseControlLite:使用轻量级条件器的多功能音乐生成

发表
Fang Duo TsaiFang Duo Tsai 提交
作者: Fang Duo TsaiFang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang

摘要

我们提出了 MuseControlLite,一种轻量级机制,旨在微调文本到音乐生成模型,以使用各种时变音乐属性和参考音频信号进行精确条件控制。关键发现是,位置嵌入(文本到音乐生成模型在文本条件调节器中很少使用)在感兴趣的条件是时间函数时至关重要。以旋律控制为例,我们的实验表明,简单地将旋转位置嵌入添加到解耦的交叉注意力层中,可以将控制精度从 56.6% 提高到 61.1%,同时比最先进的微调机制所需的训练参数少 6.75 倍,并且使用相同的 Stable Audio Open 预训练扩散 Transformer 模型。我们评估了各种形式的音乐属性控制、音频内绘和音频外绘,结果表明,以显著更低的微调成本(仅 85M 可训练参数),实现了比 MusicGen-Large 和 Stable Audio Open ControlNet 更好的可控性。源代码、模型检查点和演示示例可在以下网址获取:https://musecontrollite.github.io/web/
查看 arXiv 页面查看 PDF

评论

Fang Duo TsaiFang Duo Tsai
论文作者
论文提交者

性能超越ControlLet!MuseControlLite是一个完全开源、可控的文本到音乐模型,专为低成本训练而设计。它支持对旋律、节奏和动态进行精确控制,以及音频内绘和外绘,并允许这些条件的灵活组合。MuseControlLite在旋律条件音乐生成任务中取得了最先进的性能。