⏶120
VibeVoice 技术报告
发表
由
Li Dong 提交
作者:
Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun,
Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang,
Shaohan Huang, Yan Xia, Furu Wei
摘要
本报告介绍了VibeVoice,一个旨在合成多说话人长篇语音的新模型。该模型采用next-token diffusion(一种通过扩散自回归生成潜在向量来建模连续数据的统一方法)。为了实现这一点,我们引入了一种新颖的连续语音分词器(tokenizer),与流行的Encodec模型相比,它在保持可比性能的同时,将数据压缩提高了80倍。该分词器有效地保留了音频保真度,同时显著提高了处理长序列的计算效率。因此,VibeVoice可以合成长达90分钟(在64K的上下文窗口长度下)的多达4个说话人的长篇语音,捕捉真实的对话“氛围”(vibe),并超越了开源和专有的对话模型。

本报告介绍 VibeVoice,一个新颖的模型,旨在通过采用下一词元扩散(一种通过扩散自动回归生成潜在向量来统一建模连续数据的方法)来合成多说话者的长篇语音。为了实现这一点,我们引入了一种新颖的连续语音分词器,与流行的 Encodec 模型相比,它在保持可比性能的同时,数据压缩率提高了 80 倍。该分词器能够有效保留音频保真度,同时显著提高处理长序列的计算效率。因此,VibeVoice 可以合成长达 90 分钟(在 64K 上下文窗口长度下)且最多支持 4 位说话者的长篇语音,捕捉真实的对话“氛围”,并超越开源和专有的对话模型。