RIR-Mega:一个用于机器学习和房间声学建模的大规模模拟房间脉冲响应数据集

发表
Mandip GoswamiMandip Goswami 提交
作者: Mandip GoswamiMandip Goswami

摘要

AI 生成总结
RIR-Mega 是一个大型的模拟房间脉冲响应数据集,带有验证工具和用于从波形预测 RT60 的基线模型。
房间脉冲响应是混响消除、鲁棒语音识别、声源定位和室内声学估计的核心资源。 我们提出了 RIR-Mega,这是一个大型的模拟 RIR 集合,由紧凑、机器友好的元数据模式描述, 并附带用于验证和重用的简单工具。数据集附带 Hugging Face 数据集加载器、元数据检查和校验和脚本,以及一个参考回归基线, 可以从波形中预测 RT60 等目标。在 36,000 个训练样本和 4,000 个验证样本的分割上,一个小型随机森林在轻量级时间域和频谱特征上实现了接近 0.013 秒的平均绝对误差和接近 0.022 秒的均方根误差。我们在 Hugging Face 上托管了一个包含 1,000 个线性阵列 RIR 和 3,000 个圆形阵列 RIR 的子集,用于流式传输和快速测试, 并在 Zenodo 上保留了完整的 50,000 个 RIR 档案。数据集和代码是公开的,以支持可复现的研究。
查看 arXiv 页面查看 PDF

评论

Mandip GoswamiMandip Goswami
论文作者
论文提交者

数据集可用性:
Hugging Face 子集:(https://huggingface.co/datasets/mandipgoswami/ rirmega)
Zenodo DOI(完整 5 万个):(https://doi.org/10.5281/zenodo.17387402)
代码和脚本:(https://github.com/mandip42/rirmega)