OpenBEATs:一个完全开源的通用音频编码器

发表
Shikhar BharadwajShikhar Bharadwaj 提交
作者: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe

摘要

掩码token预测已成为跨语言、视觉和语音领域强大的预训练目标,有望通过单一预训练任务统一这些多样化的模态。然而,其在通用音频理解方面的应用仍未得到充分探索,BEATs是唯一值得注意的例子。由于缺乏开源的预训练代码,BEATs的修改受到限制。此外,BEATs仅在AudioSet上进行训练,这限制了其更广泛的下游应用。为了弥补这些空白,我们提出了OpenBEATs,一个通过多领域音频预训练扩展BEATs的开源框架。我们对六类任务、二十五个数据集和三个音频领域进行了全面评估,包括音频推理任务,如音频问答、蕴涵和字幕生成。OpenBEATs在六个生物声学数据集、两个环境声数据集和五个推理数据集上取得了最先进的性能,其参数量仅为十亿级以上模型的四分之一,但性能优于它们。这些结果证明了多领域数据集和掩码token预测任务在学习通用音频表示方面的有效性。为了促进进一步研究和可复现性,我们发布了所有预训练和评估代码、预训练和微调检查点以及训练日志,可在https://shikhar-s.github.io/OpenBEATs获取。
查看 arXiv 页面查看 PDF
OpenBEATs:一个完全开源的通用音频编码器

评论

Shikhar BharadwajShikhar Bharadwaj
论文提交者
此评论已隐藏。