Voila:用于实时自主交互和语音角色扮演的语音-语言基础模型

发表
Zhiting HuZhiting Hu 提交
作者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi LiuGuangyi Liu, Jaward SesayJaward Sesay, Jingwen Li, Zhiting HuZhiting Hu

摘要

一个能无缝融入日常生活的语音AI代理,将以自主、实时且富有情感的方式与人类互动。它不仅仅是简单地对命令做出反应,而是会持续倾听、推理并主动响应,从而促进流畅、动态且情感丰富的互动。我们介绍了 Voila,这是一个大型语音语言基础模型家族,它向这一愿景迈进了一步。Voila 采用了新的端到端架构,超越了传统的流水线系统,实现了全双工、低延迟对话,同时保留了丰富的语音细节,如音调、节奏和情感。它实现了仅 195 毫秒的响应延迟,超过了人类平均响应时间。其分层多尺度 Transformer 将大型语言模型 (LLMs) 的推理能力与强大的声学建模相结合,实现了自然、具有个性意识的语音生成——用户只需编写文本指令即可定义说话者的身份、音调和其他特征。此外,Voila 支持超过一百万种预置声音,并且可以高效地通过短短 10 秒的音频样本定制新声音。除了语音对话,Voila 还被设计为一个统一模型,适用于广泛的语音应用,包括自动语音识别 (ASR)、文本转语音 (TTS),以及通过少量调整即可实现的跨语言语音翻译。Voila 完全开源,以支持开放研究并加速下一代人机交互的发展。
查看 arXiv 页面查看 PDF

评论

Dieter BohlenDieter Bohlen

老实说,这相当酷,但声音的质量和“真实感”还不足以说服我...

FariiFarii

乍一看很酷,但是需要一些人性化的感觉。