VITA-Audio: 用于高效大规模语音-语言模型的快速交错跨模态 Token 生成

发表
沈云航 Yunhang Shen沈云航 Yunhang Shen 提交
作者: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

摘要

随着对自然人机交互需求的增长,基于语音的系统受到越来越多的关注,因为语音是日常交流中最常见的形式之一。然而,现有的语音模型在流式传输时生成第一个音频标记仍存在高延迟,这为部署带来了显著瓶颈。为了解决这个问题,我们提出了 VITA-Audio,一个端到端的大型语音模型,能够快速生成音频-文本标记。具体而言,我们引入了一个轻量级的多模态标记预测 (MCTP) 模块,该模块可以在一次模型正向传播中高效地生成多个音频标记,这不仅加快了推理速度,还显著降低了流式传输场景中生成首个音频的延迟。此外,我们探索了一种四阶段渐进式训练策略,以在最大限度地减少语音质量损失的情况下实现模型加速。据我们所知,VITA-Audio 是首个能够在首次正向传播中生成音频输出的多模态大型语言模型,从而实现具有最小延迟的实时对话能力。VITA-Audio 是完全可复现的,并且仅使用开源数据进行训练。实验结果表明,我们的模型在 7B 参数规模下实现了 3~5 倍的推理速度提升,并且在自动语音识别 (ASR)、文本到语音 (TTS) 和口语问答 (SQA) 等多项基准测试中,显著优于同等模型大小的开源模型。
查看 arXiv 页面查看 PDF

评论

沈云航 Yunhang Shen沈云航 Yunhang Shen
论文提交者

image.png

✨ 亮点
  • 低延迟. VITA-Audio 是首个能够在初始前向传播过程中生成音频的端到端语音模型。通过使用一组 32 个预填充 token,VITA-Audio 将生成第一个音频 token 块所需的时间从 236 毫秒缩短至仅 53 毫秒。

  • 推理速度快. 在 70 亿参数规模下,VITA-Audio 的推理速度提升了 3-5 倍。

  • 开源. VITA-Audio 仅使用开源数据进行训练,包含 20 万小时公开可用的音频。

  • 性能强大. 在 70 亿参数以下的先进模型中,VITA-Audio 在 ASR、TTS 和 SQA 基准测试上取得了有竞争力的结果。

📌 展示
推理加速

不同推理模式下的模型推理速度。

demogif second_gif

流式推理中生成第一个音频片段的时间
first audio generate time
生成音频案例

> 生存还是毁灭——是活得热烈而丰富,

> 还是仅仅存在,这取决于我们自己。让我们拓宽和强化我们的联系。

> 当我们活着的时候,就好好活着!

https://cdn-uploads.huggingface.co/production/uploads/6483143902f98c3f05aff915/zQPbBhKTcIJLSc79_vWur.qt


> 头发已经很少了,别想了,早点睡觉吧,为了你的头发。晚安!

https://cdn-uploads.huggingface.co/production/uploads/6483143902f98c3f05aff915/PFSfJHhVqO4iP1sSQU0e4.qt

📈 实验结果
  • 口语问答比较.

image

  • 文本转语音比较.

image

  • 自动语音识别比较.

image

image

  • 推理加速的有效性.

image

Image