⏶13
WHISTRESS:通过句子重音检测丰富转录
发表
由
Gallil Maimon 提交

作者:
Iddo Yosha,
Dorin Shteyman, Yossi Adi
摘要
口语不仅通过词汇传达意义,还通过语调、情感和重音。句子重音,即在句子中特定词汇上给予的强调,对于传达说话者的意图至关重要,并且在语言学中得到了广泛研究。在这项工作中,我们引入了WHISTRESS,一种无需对齐的方法,用于增强转录系统中的句子重音检测能力。为了支持这项任务,我们提出了TINYSTRESS-15K,这是一个用于句子重音检测任务的可扩展合成训练数据集,它是由一个全自动的数据集创建过程产生的。我们在TINYSTRESS-15K上训练WHISTRESS,并与几种有竞争力的基线方法进行评估。我们的结果表明,WHISTRESS优于现有方法,同时在训练或推理过程中不需要额外的输入先验。值得注意的是,尽管在合成数据上进行训练,WHISTRESS在各种基准测试中展现出强大的零样本泛化能力。项目页面:https://pages.cs.huji.ac.il/adiyoss-lab/whistress。
项目页面 - https://pages.cs.huji.ac.il/adiyoss-lab/whistress/