采用对抗性后训练的快速文本到音频生成

发表
Zachary NovackZachary Novack 提交
作者: Zachary NovackZachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons

摘要

文本到音频系统虽然性能日益提高,但在推理时速度较慢,因此其延迟对于许多创意应用来说并不实用。我们提出了对抗性相对对比 (Adversarial Relativistic-Contrastive, ARC) 后训练方法,这是第一个不基于蒸馏的扩散/流模型的对抗性加速算法。尽管过去的对抗性后训练方法难以与昂贵的蒸馏方法竞争,但 ARC 后训练是一个简单的过程,它 (1) 将最近的相对对抗性公式扩展到扩散/流模型的后训练中,并 (2) 将其与一种新颖的对比判别器目标相结合,以鼓励更好地遵循提示。我们将 ARC 后训练与 Stable Audio Open 的多项优化相结合,构建了一个模型,该模型能够在 H100 上在大约 75 毫秒内生成大约 12 秒的 44.1kHz 立体声音频,并在移动边缘设备上生成大约 7 秒,据我们所知,这是最快的文本到音频模型。
查看 arXiv 页面查看 PDF

评论

Zachary NovackZachary Novack
论文作者
论文提交者

模型权重:https://huggingface.co/stabilityai/stable-audio-open-small
演示:https://arc-text2audio.github.io/web/