WHISTRESS:通过句子重音检测丰富转录

发表
Gallil MaimonGallil Maimon 提交
作者: Iddo YoshaIddo Yosha, Dorin ShteymanDorin Shteyman, Yossi Adi

摘要

口语不仅通过词汇传达意义,还通过语调、情感和重音。句子重音,即在句子中特定词汇上给予的强调,对于传达说话者的意图至关重要,并且在语言学中得到了广泛研究。在这项工作中,我们引入了WHISTRESS,一种无需对齐的方法,用于增强转录系统中的句子重音检测能力。为了支持这项任务,我们提出了TINYSTRESS-15K,这是一个用于句子重音检测任务的可扩展合成训练数据集,它是由一个全自动的数据集创建过程产生的。我们在TINYSTRESS-15K上训练WHISTRESS,并与几种有竞争力的基线方法进行评估。我们的结果表明,WHISTRESS优于现有方法,同时在训练或推理过程中不需要额外的输入先验。值得注意的是,尽管在合成数据上进行训练,WHISTRESS在各种基准测试中展现出强大的零样本泛化能力。项目页面:https://pages.cs.huji.ac.il/adiyoss-lab/whistress
查看 arXiv 页面查看 PDF

评论

Gallil MaimonGallil Maimon
论文提交者

项目页面 - https://pages.cs.huji.ac.il/adiyoss-lab/whistress/