Kimi-Audio 技术报告

发表
Xu TanXu Tan 提交
作者: KimiTeam, Ding Ding, zeqian juZeqian Ju, Yichong LengYichong Leng, liusongxiangSongxiang Liu, Tong Liu, shangzeyuZeyu Shang, Kai Shen, Wei Song, Xu TanXu Tan, Heyi Tang, zhengtaoZhengtao Wang, Chu Wei, Yifei XinYifei Xin, Xu XinranXinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, DuYulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, yuzhi wangYuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao YangDongchao Yang, Hao Yang, Ying Yang, ZHILIN YANGZhilin Yang, aoxiongAoxiong Yin, Ruibin YuanRuibin Yuan, Yutong Zhang, zhouzaidaZaida Zhou

摘要

我们推出了Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。我们详细介绍了构建Kimi-Audio的实践,包括模型架构、数据策划、训练方案、推理部署和评估。具体来说,我们利用12.5Hz的音频分词器,设计了一种新颖的基于LLM的架构,以连续特征作为输入,离散标记作为输出,并开发了一种基于流匹配的块式流式去分词器。我们策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个管道来构建高质量和多样化的后训练数据。Kimi-Audio以预训练的LLM为初始化,通过精心设计的多个任务在音频和文本数据上进行持续预训练,然后进行微调以支持多种音频相关任务。广泛的评估表明,Kimi-Audio在包括语音识别、音频理解、音频问答和语音对话在内的一系列音频基准测试中取得了最先进的性能。我们在https://github.com/MoonshotAI/Kimi-Audio发布了代码、模型检查点以及评估工具包。
查看 arXiv 页面查看 PDF

评论

Xu TanXu Tan
论文作者
论文提交者

我们推出 Kimi-Audio,这是一款开源音频基础模型,在音频理解、生成和对话方面表现出色。我们详细介绍了构建 Kimi-Audio 的实践,包括模型架构、数据整理、训练方法、推理部署和评估。具体来说,我们利用 12.5Hz 音频分词器,设计了一种新颖的基于 LLM 的架构,该架构以连续特征作为输入,以离散 token 作为输出,并开发了一种基于流匹配的分块流式去分词器。我们整理了一个预训练数据集,包含超过 1300 万小时的音频数据,涵盖了广泛的模态,包括语音、声音和音乐,并构建了一个用于构建高质量和多样化后训练数据的流程。Kimi-Audio 从一个预训练的 LLM 初始化,在精心设计的多个任务下,对音频和文本数据进行持续预训练,然后进行微调以支持各种音频相关任务。广泛的评估表明,Kimi-Audio 在一系列音频基准测试中取得了最先进的性能,包括语音识别、音频理解、音频问答和语音对话。我们在 https://github.com/MoonshotAI/Kimi-Audio 发布了代码、模型检查点以及评估工具包。