用递归特征机引导自回归音乐生成

发表
Zachary NovackZachary Novack 提交
作者: Daniel Zhao, Daniel Beaglehole, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack

摘要

AI 生成总结
MusicRFM 利用递归特征机(Recursive Feature Machines)通过引导预训练音乐模型的内部激活,实现对模型的实时、细粒度控制,从而在对提示词保真度影响最小的情况下,提高音乐音符的准确性。
可控音乐生成仍然是一个重大挑战,现有方法通常需要模型再训练或引入可听见的伪影。我们引入了 MusicRFM,这是一个框架,它使递归特征机 (RFM) 能够通过直接引导冻结的、预训练音乐模型的内部激活来实现对它们的细粒度、可解释控制。RFM 分析模型的内部梯度以生成可解释的“概念方向”,或激活空间中对应于音符或和弦等音乐属性的特定轴。我们首先训练轻量级 RFM 探针以在 MusicGen 的隐藏状态中发现这些方向;然后,在推理过程中,我们将它们注入回模型中以实时引导生成过程,而无需进行每步优化。我们展示了这种控制的高级机制,包括动态、时变调度以及同时强制执行多个音乐属性的方法。我们的方法成功地平衡了控制和生成质量之间的权衡:我们可以将生成目标音符的准确性从 0.23 提高到 0.82,同时文本提示依从性保持在未引导基线的大约 0.02 范围内,这表明在对提示保真度影响最小的情况下实现了有效控制。我们发布代码以鼓励在音乐领域对 RFM 进行进一步探索。
查看 arXiv 页面查看 PDF

评论