⏶7

VITA-Audio: 用于高效大规模语音-语言模型的快速交错跨模态 Token 生成

05月06日发表

05月07日由沈云航 Yunhang Shen 提交

作者: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

摘要

随着对自然人机交互需求的增长，基于语音的系统受到越来越多的关注，因为语音是日常交流中最常见的形式之一。然而，现有的语音模型在流式传输时生成第一个音频标记仍存在高延迟，这为部署带来了显著瓶颈。为了解决这个问题，我们提出了 VITA-Audio，一个端到端的大型语音模型，能够快速生成音频-文本标记。具体而言，我们引入了一个轻量级的多模态标记预测 (MCTP) 模块，该模块可以在一次模型正向传播中高效地生成多个音频标记，这不仅加快了推理速度，还显著降低了流式传输场景中生成首个音频的延迟。此外，我们探索了一种四阶段渐进式训练策略，以在最大限度地减少语音质量损失的情况下实现模型加速。据我们所知，VITA-Audio 是首个能够在首次正向传播中生成音频输出的多模态大型语言模型，从而实现具有最小延迟的实时对话能力。VITA-Audio 是完全可复现的，并且仅使用开源数据进行训练。实验结果表明，我们的模型在 7B 参数规模下实现了 3~5 倍的推理速度提升，并且在自动语音识别 (ASR)、文本到语音 (TTS) 和口语问答 (SQA) 等多项基准测试中，显著优于同等模型大小的开源模型。

查看 arXiv 页面查看 PDF

沈云航 Yunhang Shen

论文提交者

✨ 亮点

低延迟. VITA-Audio 是首个能够在初始前向传播过程中生成音频的端到端语音模型。通过使用一组 32 个预填充 token，VITA-Audio 将生成第一个音频 token 块所需的时间从 236 毫秒缩短至仅 53 毫秒。
推理速度快. 在 70 亿参数规模下，VITA-Audio 的推理速度提升了 3-5 倍。
开源. VITA-Audio 仅使用开源数据进行训练，包含 20 万小时公开可用的音频。
性能强大. 在 70 亿参数以下的先进模型中，VITA-Audio 在 ASR、TTS 和 SQA 基准测试上取得了有竞争力的结果。

📌 展示

推理加速

不同推理模式下的模型推理速度。

demogif second_gif