⏶13
LLaMA-Omni2:带有自回归流式语音合成的基于LLM的实时语音聊天机器人
发表
由
Qingkai Fang 提交
作者:
Qingkai Fang, Yan Zhou,
Shoutao Guo,
Shaolei Zhang, Yang Feng
摘要
实时、智能和自然的语音交互是下一代人机交互的重要组成部分。最近的进展展示了基于大型语言模型 (LLMs) 构建智能语音聊天机器人的潜力。在本文中,我们介绍了 LLaMA-Omni 2,这是一个语音语言模型 (SpeechLMs) 系列,参数规模从 0.5B 到 14B 不等,能够实现高质量的实时语音交互。LLaMA-Omni 2 构建在 Qwen2.5 系列模型之上,集成了语音编码器和自回归流式语音解码器。尽管仅在 20 万个多轮语音对话样本上进行训练,LLaMA-Omni 2 在多个语音问答和语音指令遵循基准上表现出强大的性能,超越了先前最先进的 SpeechLMs,例如在数百万小时语音数据上训练的 GLM-4-Voice。
论文:https://arxiv.org/abs/2505.02625 代码:https://github.com/ictnlp/LLaMA-Omni2 模型:https://huggingface.co/collections/ICTNLP/llama-omni-67fdfb852c60470175e36e9c