空间语音翻译:使用双耳听戴设备实现跨空间翻译

发表
Tuochao ChenTuochao Chen 提交
作者: Tuochao ChenTuochao Chen, Qirui Wang, Runlin He, Shyam Gollakota

摘要

想象身处一个人们说着不同语言的拥挤空间,佩戴着可穿戴听觉设备,能将听觉空间转化为你的母语,同时保留所有说话者的空间线索。我们介绍空间语音翻译,这是一种针对可穿戴听觉设备的新颖概念,能够翻译佩戴者周围环境中的说话者,同时在双耳输出中保持每个说话者的方向和独特的语音特征。为了实现这一点,我们解决了盲源分离、定位、实时富有表现力的翻译和双耳渲染等多个技术挑战,以便在翻译后的音频中保留说话者方向,同时在 Apple M2 芯片上实现实时推理。我们使用原型双耳耳机进行的概念验证评估显示,与在存在干扰时失效的现有模型不同,我们在语言翻译中实现了高达 22.01 的 BLEU 分数,尽管环境中存在其他说话者的强烈干扰。用户研究进一步证实了该系统在之前未见的真实世界混响环境中有效进行翻译后语音的空间渲染。从宏观上看,这项工作标志着将空间感知整合到语音翻译中的第一步。
查看 arXiv 页面查看 PDF

评论

Tuochao ChenTuochao Chen
论文作者
论文提交者

想象身处一个人们说着不同语言的拥挤空间,同时拥有能够将听觉空间转换成你母语的听戴设备,并且保留所有说话者的空间线索。我们引入了空间语音翻译,这是一种针对听戴设备的新颖概念,能够翻译佩戴者周围说话者的语音,同时在双耳输出中保持每个说话者的方向和独特嗓音特征。为了实现这一点,我们解决了涵盖盲源分离、定位、实时富有表现力的翻译和双耳渲染等多个方面的技术挑战,以在翻译后的音频中保留说话者方向,同时在苹果 M2 芯片上实现实时推理。我们使用原型双耳耳麦进行的概念验证评估显示,与在存在干扰时会失效的现有模型不同,尽管环境中存在来自其他说话者的强烈干扰,我们在语言之间进行翻译时仍能实现高达 22.01 的 BLEU 分数。用户研究进一步证实了该系统在先前未见的真实世界混响环境中对翻译后的语音进行空间渲染的有效性。退一步讲,这项工作标志着将空间感知整合到语音翻译中的第一步。代码、数据集可在 https://github.com/chentuochao/Spatial-Speech-Translation 获取。