⏶10
JAM:一个具有细粒度可控性和审美对齐的微型流式歌曲生成器
发表
由
Soujanya Poria 提交

作者: Renhang Liu,
Chia-Yu Hung, Navonil Majumder, Taylor Gautreaux, Amir Ali Bagherzadeh, Chuan Li,
Dorien Herremans, Soujanya Poria


摘要
扩散模型和流匹配模型近期彻底改变了自动文本转音频生成。这些模型越来越能够生成高质量、忠实的音频输出,捕捉语音和声学事件。然而,在主要涉及音乐和歌曲的创意音频生成方面,仍有很大的改进空间。最近的开放歌词转歌曲模型,如DiffRhythm、ACE-Step和LeVo,已为休闲用途的自动歌曲生成设定了一个可接受的标准。然而,这些模型缺乏音乐家在其工作流程中常常需要的细粒度词级可控性。据我们所知,我们基于流匹配的JAM是首次尝试在歌曲生成中赋予词级时间和时长控制,从而实现细粒度的人声控制。为了提高生成歌曲的质量,使其更好地符合人类偏好,我们通过直接偏好优化实现了美学对齐,该方法使用合成数据集迭代地优化模型,消除了手动数据标注的需要。此外,我们旨在通过我们的公共评估数据集JAME标准化此类歌词转歌曲模型的评估。我们表明,JAM在音乐特定属性方面优于现有模型。
https://declare-lab.github.io/jamify