⏶60
UniMoE-Audio:通过动态容量 MoE 实现统一的语音和音乐生成
发表
由
ZhenyuLiu 提交
作者: Zhenyu Liu, Yunxin Li, Xuanyu Zhang, Qixun Teng, Shenyuan Jiang, Xinyu Chen,
Haoyuan Shi, Jinchao Li, Qi Wang, Haolan Chen, Fanbo Meng, Mingjun Zhao, Yu Xu, Yancheng He, Baotian Hu, Min Zhang
摘要
AI 生成总结
UniMoE-Audio 是一个使用动态容量混合专家框架的统一语音和音乐生成模型,可解决数据不平衡和任务冲突问题,取得最先进的性能和增强的跨领域协同作用。统一多模态模型的最新进展表明了全面内容生成的明确趋势。然而,音频领域仍然是一个重大挑战,音乐和语音通常是独立开发的,阻碍了向通用音频合成的进展。这种分离源于固有的任务冲突和严重的数据不平衡,这阻碍了真正统一的音频生成模型的开发。为了应对这一挑战,我们提出了 UniMoE-Audio,一个在新型动态容量混合专家 (MoE) 框架内的统一语音和音乐生成模型。在架构上,UniMoE-Audio 引入了一种 Top-P 路由策略来进行动态专家数量分配,以及一种混合专家设计,包括用于领域特定知识的路由专家、用于领域无关特征的共享专家以及用于自适应计算跳过的空专家。为了解决数据不平衡问题,我们引入了一个三阶段训练课程:1) 独立专家训练利用原始数据集在不产生干扰的情况下为每个“原型专家”注入领域特定知识;2) MoE 集成和预热将这些专家整合到 UniMoE-Audio 架构中,使用平衡数据集的子集预热门控模块和共享专家;3) 协同联合训练在完全平衡的数据集上对整个模型进行端到端训练,以促进增强的跨领域协同作用。大量的实验表明,UniMoE-Audio 不仅在主要的语音和音乐生成基准上取得了最先进的性能,而且还展示了优越的协同学习能力,减轻了在简单联合训练中通常出现的性能下降。我们的研究结果强调了专业 MoE 架构和精心设计的训练策略在推进通用音频生成领域方面的巨大潜力。主页:https://mukioxun.github.io/Uni-MoE-site/home.html
评论
arXiv 论文解读 👉 https://arxivexplained.com/papers/unimoe-audio-unified-speech-and-music-generation-with-dynamic-capacity-moe
🎮 主页:https://mukioxun.github.io/Uni-MoE-site/home.html
⭐ 代码:https://github.com/HITsz-TMG/Uni-MoE/blob/master/UniMoE-Audio
🤖 模型:https://huggingface.co/HIT-TMG/UniMoE-Audio-Preview