⏶67
Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型
发表
由
Zhiting Hu 提交
作者: Yemin Shi, Yu Shu, Siwei Dong,
Guangyi Liu,
Jaward Sesay, Jingwen Li,
Zhiting Hu


摘要
一个能无缝融入日常生活的语音AI代理,将以自主、实时且富有情感的方式与人类互动。它不仅仅是简单地对命令做出反应,而是会持续倾听、推理并主动响应,从而促进流畅、动态且情感丰富的互动。我们介绍了 Voila,这是一个大型语音语言基础模型家族,它向这一愿景迈进了一步。Voila 采用了新的端到端架构,超越了传统的流水线系统,实现了全双工、低延迟对话,同时保留了丰富的语音细节,如音调、节奏和情感。它实现了仅 195 毫秒的响应延迟,超过了人类平均响应时间。其分层多尺度 Transformer 将大型语言模型 (LLMs) 的推理能力与强大的声学建模相结合,实现了自然、具有个性意识的语音生成——用户只需编写文本指令即可定义说话者的身份、音调和其他特征。此外,Voila 支持超过一百万种预置声音,并且可以高效地通过短短 10 秒的音频样本定制新声音。除了语音对话,Voila 还被设计为一个统一模型,适用于广泛的语音应用,包括自动语音识别 (ASR)、文本转语音 (TTS),以及通过少量调整即可实现的跨语言语音翻译。Voila 完全开源,以支持开放研究并加速下一代人机交互的发展。
项目页面:https://voila.maitrix.org 模型 (Huggingface):https://huggingface.co/collections/maitrix-org/voila-67e0d96962c19f221fc73fa5 代码 (GitHub):https://github.com/maitrix-org/Voila Web演示:https://huggingface.co/spaces/maitrix-org/Voila-demo