⏶8
Covo-Audio 技术报告
发表
由
taesiri 提交
作者: Wenfu Wang, Chenxing Li, Liqiang Zhang, Yiyang Zhao, Yuxiang Zou, Hanzhao Li, Mingyu Cui, Hao Zhang, Kun Wei, Le Xu, Zikang Huang, Jiajun Xu, Jiliang Hu, Xiang He, Zeyu Xie, Jiawen Kang, Youjun Chen, Meng Yu, Dong Yu, Rilin Chen, Linlin Di, Shulin Feng, Na Hu, Yang Liu, Bang Wang, Shan Yang
摘要
AI 生成总结
Covo-Audio 是一个拥有 70 亿参数的端到端大型语音语言模型,能够处理连续音频输入并生成音频输出,通过大规模预训练和后训练技术,在语音-文本建模、口语对话和全双工语音交互任务中达到了最先进的性能。在这项工作中,我们推出了 Covo-Audio,这是一个 7B 参数的端到端 LALM,它能在单一统一架构内直接处理连续音频输入并生成音频输出。通过大规模精心预训练和有针对性的后训练,Covo-Audio 在与其规模相当的模型中,在包括语音文本建模、语音对话、语音理解、音频理解和全双工语音交互在内的广泛任务中达到了最先进或极具竞争力的性能。广泛的评估表明,该预训练基座模型在多个基准测试中展现出强大的语音文本理解和语义推理能力,优于规模相当的代表性开源模型。此外,面向对话的变体 Covo-Audio-Chat 展示了强大的语音对话能力,包括理解、上下文推理、指令遵循以及生成符合语境且具同理心的响应,验证了其在现实对话助手场景中的适用性。进化的全双工模型 Covo-Audio-Chat-FD 在语音对话能力和全双工交互行为方面均取得了显著优越的表现,证明了其在实际应用中的稳健性。为了降低为自然对话系统部署端到端 LALM 的高昂成本,我们提出了一种智能-语音解耦策略,将对话智能与语音渲染分离,从而能以极少的文本转语音 (TTS) 数据实现灵活的语音定制,同时保留对话性能。总体而言,我们的结果突显了 7B 规模模型集成复杂音频智能与高水平语义推理的巨大潜力,并为更强大、更多能的 LALM 指明了一条可扩展的路径。