⏶6
基于提示控制的多功能歌曲生成框架
发表
由
Yu Zhang 提交

作者:
Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

摘要
歌曲生成侧重于基于各种提示生成可控的高质量歌曲。然而,现有方法难以生成具有基于提示控制和适当对齐的人声和伴奏。此外,它们在支持各种任务方面表现不足。为了解决这些挑战,我们引入了 VersBand,这是一个多任务歌曲生成框架,用于合成具有基于提示控制的高质量、对齐的歌曲。VersBand 主要包含以下模型:1) VocalBand 是一个解耦模型,利用流匹配方法生成演唱风格、音高和梅尔频谱图,从而实现快速、高质量且带风格控制的人声生成。2) AccompBand 是一个基于流的 Transformer 模型,集成了 Band-MOE,通过选择合适的专家来提高质量、对齐和控制能力。该模型可以生成与人声对齐的可控、高质量伴奏。3) 另外两个生成模型 LyricBand(用于歌词)和 MelodyBand(用于旋律)共同构建了一个全面的多任务歌曲生成系统,支持基于多个提示的广泛控制。实验结果表明,VersBand 在多个歌曲生成任务中,使用客观和主观指标,表现优于基线模型。音频样本可在 https://VersBand.github.io 获取。
歌曲生成着重于基于各种提示来生成可控的高质量歌曲。然而,现有方法难以生成可基于提示控制且恰当对齐的人声和伴奏。此外,它们在支持各种任务方面也存在不足。为了解决这些挑战,我们引入了 VersBand,这是一个多任务歌曲生成框架,用于合成高质量、声部对齐且可基于提示控制的歌曲。VersBand 包含以下主要模型:1) VocalBand 是一个解耦模型,利用流匹配方法生成歌唱风格、音高和梅尔频谱图,实现了快速、高质量且带风格控制的人声生成。2) AccompBand 是一个基于流的 Transformer 模型,结合了 Band-MOE,通过选择合适的专家来增强生成质量、对齐和控制能力。这个模型实现了与人声对齐的可控高质量伴奏生成。3) LyricBand (用于歌词) 和 MelodyBand (用于旋律) 是两个生成模型,它们共同构成了全面的多任务歌曲生成系统,实现了基于多种提示的广泛控制。实验结果表明,在使用客观和主观指标衡量的多种歌曲生成任务上,VersBand 的表现优于基线模型。音频示例可在 https://VersBand.github.io 获取。