⏶32
离散音频令牌:不仅仅是一项调查!
发表
由
Gallil Maimon 提交

作者:
Pooneh Mousavi,
Gallil Maimon,
Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli



摘要
离散音频Token是一种紧凑的表示形式,旨在保留感知质量、语音内容和说话人特征,同时实现高效存储和推理,并在各种下游任务中实现具有竞争力的性能。它们为连续特征提供了一种实用的替代方案,使语音和音频能够集成到现代大型语言模型(LLM)中。随着对基于Token的音频处理兴趣的增长,各种Token化方法应运而生,并且已有几项调查回顾了该领域的最新进展。然而,现有研究往往侧重于特定领域或任务,缺乏在各种基准上进行统一比较。本文对离散音频Token化器进行了系统回顾和基准测试,涵盖了语音、音乐和通用音频三个领域。我们基于编码器-解码器、量化技术、训练范式、流式处理能力和应用领域,提出了一个Token化方法的分类体系。我们在多个基准上评估了Token化器在重建、下游性能和声学语言建模方面的表现,并通过受控消融研究分析了权衡。我们的发现强调了关键的局限性、实际考虑因素和开放性挑战,为这一快速发展领域的未来研究提供了见解和指导。有关更多信息,包括我们的主要结果和Token化器数据库,请访问我们的网站:https://poonehmousavi.github.io/dates-website/。

请访问论文网站以获取交互式、持续更新的分词器数据库以及主要成果——https://poonehmousavi.github.io/dates-website/