⏶13

LLaMA-Omni2：带有自回归流式语音合成的基于LLM的实时语音聊天机器人

05月05日发表

05月06日由 Qingkai Fang 提交

作者: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng

摘要

实时、智能和自然的语音交互是下一代人机交互的重要组成部分。最近的进展展示了基于大型语言模型 (LLMs) 构建智能语音聊天机器人的潜力。在本文中，我们介绍了 LLaMA-Omni 2，这是一个语音语言模型 (SpeechLMs) 系列，参数规模从 0.5B 到 14B 不等，能够实现高质量的实时语音交互。LLaMA-Omni 2 构建在 Qwen2.5 系列模型之上，集成了语音编码器和自回归流式语音解码器。尽管仅在 20 万个多轮语音对话样本上进行训练，LLaMA-Omni 2 在多个语音问答和语音指令遵循基准上表现出强大的性能，超越了先前最先进的 SpeechLMs，例如在数百万小时语音数据上训练的 GLM-4-Voice。

查看 arXiv 页面查看 PDF

Qingkai Fang

论文作者

论文提交者

论文：https://arxiv.org/abs/2505.02625 代码：https://github.com/ictnlp/LLaMA-Omni2 模型：https://huggingface.co/collections/ICTNLP/llama-omni-67fdfb852c60470175e36e9c

Ciaran Davies

测试

LLaMA-Omni2：带有自回归流式语音合成的基于LLM的实时语音聊天机器人

摘要

评论