⏶0
基于高斯先验改进人声效果风格迁移的推理时优化
发表
由
Chin-Yun Yu 提交

作者:
Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas

摘要
推理时优化风格迁移 (ST-ITO) 是一种将参考音频的应用效果迁移到原始音频轨道上的近期方法。它通过优化效果参数来最小化处理后的音频与参考音频之间的风格嵌入距离。然而,这种方法平等对待所有可能的配置,并完全依赖于嵌入空间,这可能导致不切实际或有偏差的结果。我们通过引入一个源自人声预设数据集 DiffVox 的高斯先验分布在参数空间上来解决这个缺陷。由此产生的优化等同于最大后验估计。在 MedleyDB 数据集上进行的人声效果迁移评估显示,与基线方法(包括盲音频效果估计器、最近邻方法和未校准的 ST-ITO)相比,各项指标均有显著改善。提出的校准方法将参数均方误差降低了高达 33%,并且更好地匹配了参考风格。对 16 名参与者进行的主观评估证实了我们方法的优越性,尤其是在数据有限的情况下。这项工作表明,在推理时整合先验知识如何增强音频效果迁移,为更有效和逼真的音频处理系统铺平了道路。
一个用于人声效果风格迁移的经过校准的 ST-ITO。