基于连续潜在空间能量距离的高效语音语言建模

发表
Zhengrui MaZhengrui Ma 提交
作者: Zhengrui MaZhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang

摘要

我们引入了 SLED,这是一种替代的语音语言建模方法,通过将语音波形编码为连续潜在表示序列,并使用能量距离目标自回归地建模它们。能量距离通过对比模拟样本和目标样本,提供了分布差距的解析度量,从而实现高效训练以捕捉潜在的连续自回归分布。通过绕过对残差向量量化的依赖,SLED 避免了离散化误差,并消除了现有语音语言模型中常见的复杂分层架构的需求。它简化了整体建模流程,同时保留了丰富的语音信息并保持了推理效率。实证结果表明,SLED 在零样本和流式语音合成中都取得了良好性能,显示了其在通用语音语言模型中更广泛应用的潜力。
查看 arXiv 页面查看 PDF

评论

Zhengrui MaZhengrui Ma
论文作者
论文提交者

Github: https://github.com/ictnlp/SLED-TTS