⏶2
DiffVox:用于捕获和分析专业效果分布的可微模型
发表
由
Chin-Yun Yu 提交

作者:
Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji

摘要
本研究介绍了一种新颖且可解释的模型 DiffVox,用于在音乐制作中匹配人声效果。DiffVox 是“可微分人声效果”(Differentiable Vocal Fx)的简称,它集成了参数均衡、动态范围控制、延迟和混响,采用高效的可微分实现,以便实现基于梯度的优化进行参数估计。人声预设从两个数据集中获取,包括来自 MedleyDB 的 70 条音轨和来自一个私人收集的 365 条音轨。参数相关性分析突出了效果与参数之间的密切关系,例如高通滤波器和低架滤波器经常协同作用以塑造低频,以及延迟时间与延迟信号的强度相关。主成分分析揭示了与 McAdams 音色维度的联系,其中最关键的成分调节感知到的空间感,而次要成分影响频谱亮度。统计检验证实了参数分布的非高斯特性,突显了人声效果空间的复杂性。这些关于参数分布的初步发现,为人声效果建模和自动混音领域的未来研究奠定了基础。我们的源代码和数据集可通过 https://github.com/SonyResearch/diffvox 获取。

本文提出了一种用于人声效果的可微分实现,这种实现训练速度快且能够进行实时处理。此外,提供了来自 MedleyDB 数据集的 435 种人声预设以及一个基于 DiffVox 的多轨混音私人集合。进行了相关性分析和主成分分析,以揭示更多关于效果参数分布的洞察。