MagiCodec:用于高保真重构和生成的简单掩码高斯注入编解码器

发表
xiaobin zhuangxiaobin zhuang 提交
作者: Yakun Song, Jiawei Chen, xiaobin zhuangXiaobin Zhuang, Chenpeng Du, Ziyang Ma, Jian Wu, Jian Cong, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

摘要

神经音频编解码器在将原始音频波形高效映射到离散的token表示方面取得了显著进展,这些表示是当代音频生成模型的基础。然而,大多数现有编解码器主要针对重建质量进行优化,但往往牺牲了编码token的下游可建模性。为了克服这一瓶颈,我们引入了MagiCodec,一种新颖的单层、流式Transformer音频编解码器。MagiCodec采用多阶段训练流程设计,其中包含高斯噪声注入和潜在正则化,明确旨在增强生成代码的语义表达能力,同时保持高重建保真度。我们在频域中解析推导了噪声注入的效果,证明了其在衰减高频分量和促进鲁棒分词方面的有效性。大量的实验评估表明,MagiCodec在重建质量和下游任务方面均超越了最先进的编解码器。值得注意的是,MagiCodec生成的token表现出类似于自然语言中观察到的齐普夫分布,从而提高了与基于语言模型的生成架构的兼容性。代码和预训练模型可在 https://github.com/Ereboas/MagiCodec 获取。
查看 arXiv 页面查看 PDF

评论

xiaobin zhuangxiaobin zhuang
论文作者
论文提交者

codec