⏶2

BinauralFlow：一种基于流匹配模型的高质量双耳语音合成因果可流式方法

05月28日发表

06月03日由 Susan Liang 提交

作者: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard

摘要

双耳渲染旨在根据单声道音频以及说话者和听众的位置，合成模仿自然听觉的双耳音频。尽管已提出了许多方法来解决此问题，但它们在渲染质量和可流式推理方面面临挑战。合成与真实世界录音无法区分的高质量双耳音频，需要精确建模双耳线索、房间混响和环境声音。此外，实际应用需要流式推理。为了应对这些挑战，我们提出了一种基于流匹配的流式双耳语音合成框架，名为BinauralFlow。我们将双耳渲染视为一个生成问题而非回归问题，并设计了一个条件流匹配模型来渲染高质量音频。此外，我们设计了一个因果U-Net架构，该架构仅基于过去信息估计当前音频帧，以适应生成模型进行流式推理。最后，我们引入了一个连续推理管道，结合了流式STFT/ISTFT操作、缓冲区、中点求解器和早期跳过调度，以提高渲染的连续性和速度。定量和定性评估表明我们的方法优于SOTA方法。一项感知研究进一步表明，我们的模型与真实世界录音几乎无法区分，混淆率为42%。

查看 arXiv 页面查看 PDF

Susan Liang

论文提交者

双耳渲染旨在基于单声道音频以及说话者和听众的位置，合成模仿自然听觉的双耳音频。尽管已提出许多方法来解决此问题，但它们在渲染质量和可流式推理方面仍面临挑战。合成与真实世界录音难以区分的高质量双耳音频，需要精确建模双耳线索、房间混响和环境声音。此外，实际应用要求流式推理。为应对这些挑战，我们提出了一种基于流匹配的流式双耳语音合成框架，名为 BinauralFlow。我们将双耳渲染视为一个生成问题而非回归问题，并设计了一个条件流匹配模型来渲染高质量音频。此外，我们设计了一种因果U-Net架构，仅基于过去信息估计当前音频帧，以使生成模型适应流式推理。最后，我们引入了一个连续推理管道，整合了流式STFT/ISTFT操作、缓冲区、中点求解器和早期跳过调度，以提高渲染的连续性和速度。定量和定性评估表明，我们的方法优于SOTA方法。一项感知研究进一步揭示，我们的模型与真实世界录音几乎无法区分，混淆率为42%。我们建议读者访问我们的项目页面观看演示视频：https://liangsusan-git.github.io/project/binauralflow/。

BinauralFlow：一种基于流匹配模型的高质量双耳语音合成因果可流式方法

摘要

评论