⏶2
BinauralFlow:一种基于流匹配模型的高质量双耳语音合成因果可流式方法
发表
由
Susan Liang 提交
作者: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
摘要
双耳渲染旨在根据单声道音频以及说话者和听众的位置,合成模仿自然听觉的双耳音频。尽管已提出了许多方法来解决此问题,但它们在渲染质量和可流式推理方面面临挑战。合成与真实世界录音无法区分的高质量双耳音频,需要精确建模双耳线索、房间混响和环境声音。此外,实际应用需要流式推理。为了应对这些挑战,我们提出了一种基于流匹配的流式双耳语音合成框架,名为BinauralFlow。我们将双耳渲染视为一个生成问题而非回归问题,并设计了一个条件流匹配模型来渲染高质量音频。此外,我们设计了一个因果U-Net架构,该架构仅基于过去信息估计当前音频帧,以适应生成模型进行流式推理。最后,我们引入了一个连续推理管道,结合了流式STFT/ISTFT操作、缓冲区、中点求解器和早期跳过调度,以提高渲染的连续性和速度。定量和定性评估表明我们的方法优于SOTA方法。一项感知研究进一步表明,我们的模型与真实世界录音几乎无法区分,混淆率为42%。
双耳渲染旨在基于单声道音频以及说话者和听众的位置,合成模仿自然听觉的双耳音频。尽管已提出许多方法来解决此问题,但它们在渲染质量和可流式推理方面仍面临挑战。合成与真实世界录音难以区分的高质量双耳音频,需要精确建模双耳线索、房间混响和环境声音。此外,实际应用要求流式推理。为应对这些挑战,我们提出了一种基于流匹配的流式双耳语音合成框架,名为 BinauralFlow。我们将双耳渲染视为一个生成问题而非回归问题,并设计了一个条件流匹配模型来渲染高质量音频。此外,我们设计了一种因果U-Net架构,仅基于过去信息估计当前音频帧,以使生成模型适应流式推理。最后,我们引入了一个连续推理管道,整合了流式STFT/ISTFT操作、缓冲区、中点求解器和早期跳过调度,以提高渲染的连续性和速度。定量和定性评估表明,我们的方法优于SOTA方法。一项感知研究进一步揭示,我们的模型与真实世界录音几乎无法区分,混淆率为42%。我们建议读者访问我们的项目页面观看演示视频:https://liangsusan-git.github.io/project/binauralflow/。