⏶7
VITA-Audio: 用于高效大规模语音-语言模型的快速交错跨模态 Token 生成
发表
由
沈云航 Yunhang Shen 提交

作者: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun
摘要
随着对自然人机交互需求的增长,基于语音的系统受到越来越多的关注,因为语音是日常交流中最常见的形式之一。然而,现有的语音模型在流式传输时生成第一个音频标记仍存在高延迟,这为部署带来了显著瓶颈。为了解决这个问题,我们提出了 VITA-Audio,一个端到端的大型语音模型,能够快速生成音频-文本标记。具体而言,我们引入了一个轻量级的多模态标记预测 (MCTP) 模块,该模块可以在一次模型正向传播中高效地生成多个音频标记,这不仅加快了推理速度,还显著降低了流式传输场景中生成首个音频的延迟。此外,我们探索了一种四阶段渐进式训练策略,以在最大限度地减少语音质量损失的情况下实现模型加速。据我们所知,VITA-Audio 是首个能够在首次正向传播中生成音频输出的多模态大型语言模型,从而实现具有最小延迟的实时对话能力。VITA-Audio 是完全可复现的,并且仅使用开源数据进行训练。实验结果表明,我们的模型在 7B 参数规模下实现了 3~5 倍的推理速度提升,并且在自动语音识别 (ASR)、文本到语音 (TTS) 和口语问答 (SQA) 等多项基准测试中,显著优于同等模型大小的开源模型。
低延迟. VITA-Audio 是首个能够在初始前向传播过程中生成音频的端到端语音模型。通过使用一组 32 个预填充 token,VITA-Audio 将生成第一个音频 token 块所需的时间从 236 毫秒缩短至仅 53 毫秒。
推理速度快. 在 70 亿参数规模下,VITA-Audio 的推理速度提升了 3-5 倍。
开源. VITA-Audio 仅使用开源数据进行训练,包含 20 万小时公开可用的音频。
性能强大. 在 70 亿参数以下的先进模型中,VITA-Audio 在 ASR、TTS 和 SQA 基准测试上取得了有竞争力的结果。
不同推理模式下的模型推理速度。
> 生存还是毁灭——是活得热烈而丰富,
> 还是仅仅存在,这取决于我们自己。让我们拓宽和强化我们的联系。
> 当我们活着的时候,就好好活着!
https://cdn-uploads.huggingface.co/production/uploads/6483143902f98c3f05aff915/zQPbBhKTcIJLSc79_vWur.qt
> 头发已经很少了,别想了,早点睡觉吧,为了你的头发。晚安!
https://cdn-uploads.huggingface.co/production/uploads/6483143902f98c3f05aff915/PFSfJHhVqO4iP1sSQU0e4.qt