⏶67

Voila：用于实时自主交互和语音角色扮演的语音-语言基础模型

05月05日发表

05月06日由 Zhiting Hu 提交

作者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

摘要

一个能无缝融入日常生活的语音AI代理，将以自主、实时且富有情感的方式与人类互动。它不仅仅是简单地对命令做出反应，而是会持续倾听、推理并主动响应，从而促进流畅、动态且情感丰富的互动。我们介绍了 Voila，这是一个大型语音语言基础模型家族，它向这一愿景迈进了一步。Voila 采用了新的端到端架构，超越了传统的流水线系统，实现了全双工、低延迟对话，同时保留了丰富的语音细节，如音调、节奏和情感。它实现了仅 195 毫秒的响应延迟，超过了人类平均响应时间。其分层多尺度 Transformer 将大型语言模型 (LLMs) 的推理能力与强大的声学建模相结合，实现了自然、具有个性意识的语音生成——用户只需编写文本指令即可定义说话者的身份、音调和其他特征。此外，Voila 支持超过一百万种预置声音，并且可以高效地通过短短 10 秒的音频样本定制新声音。除了语音对话，Voila 还被设计为一个统一模型，适用于广泛的语音应用，包括自动语音识别 (ASR)、文本转语音 (TTS)，以及通过少量调整即可实现的跨语言语音翻译。Voila 完全开源，以支持开放研究并加速下一代人机交互的发展。

查看 arXiv 页面查看 PDF

Zhiting Hu

论文作者

论文提交者

项目页面：https://voila.maitrix.org 模型 (Huggingface)：https://huggingface.co/collections/maitrix-org/voila-67e0d96962c19f221fc73fa5 代码 (GitHub)：https://github.com/maitrix-org/Voila Web演示：https://huggingface.co/spaces/maitrix-org/Voila-demo

Dieter Bohlen

老实说，这相当酷，但声音的质量和“真实感”还不足以说服我...

Farii

乍一看很酷，但是需要一些人性化的感觉。

Voila：用于实时自主交互和语音角色扮演的语音-语言基础模型

摘要

评论