LLaMA-Omni2:带有自回归流式语音合成的基于LLM的实时语音聊天机器人

发表
Qingkai FangQingkai Fang 提交
作者: Qingkai FangQingkai Fang, Yan Zhou, Shoutao GuoShoutao Guo, Shaolei ZhangShaolei Zhang, Yang Feng

摘要

实时、智能和自然的语音交互是下一代人机交互的重要组成部分。最近的进展展示了基于大型语言模型 (LLMs) 构建智能语音聊天机器人的潜力。在本文中,我们介绍了 LLaMA-Omni 2,这是一个语音语言模型 (SpeechLMs) 系列,参数规模从 0.5B 到 14B 不等,能够实现高质量的实时语音交互。LLaMA-Omni 2 构建在 Qwen2.5 系列模型之上,集成了语音编码器和自回归流式语音解码器。尽管仅在 20 万个多轮语音对话样本上进行训练,LLaMA-Omni 2 在多个语音问答和语音指令遵循基准上表现出强大的性能,超越了先前最先进的 SpeechLMs,例如在数百万小时语音数据上训练的 GLM-4-Voice。
查看 arXiv 页面查看 PDF

评论

Ciaran DaviesCiaran Davies

测试