⏶2
再瓶颈:神经音频自编码器的潜在重构
发表
由
Dimitrios Bralios 提交
作者: Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis
摘要
神经网络音频编解码器和自编码器已成为音频压缩、传输、特征提取和潜在空间生成的多功能模型。然而,一个主要的局限性是大多数模型被训练以最大化重建保真度,却常常忽略了在各种下游应用中实现最佳性能所需的特定潜在结构。我们提出了一个简单的、事后处理的框架来解决这个问题,通过修改预训练自编码器的瓶颈。我们的方法引入了一个“再瓶颈”(Re-Bottleneck),这是一个内部瓶颈,它专门通过潜在空间损失进行训练,以灌输用户定义的结构。我们在三个实验中展示了该框架的有效性。首先,我们在不牺牲重建质量的前提下,对潜在通道强制执行了排序。其次,我们将潜在量与语义嵌入对齐,分析了其对下游扩散模型的影响。第三,我们引入了等变性,确保输入波形上的滤波操作直接对应于潜在空间中的特定变换。最终,我们的“再瓶颈”框架提供了一种灵活高效的方式来调整神经网络音频模型的表示,使它们能够以最少的额外训练无缝地满足不同应用的各种需求。
Re-Bottleneck 是一个框架,它能高效地重构冻结的预训练神经音频自编码器的潜在空间。这使得事后(post-hoc)施加所需的属性成为可能,例如通道排序、语义对齐和变换等变性,从而在保持重建质量的同时,改进文本到音频生成等下游任务。