⏶11
Speechless:适用于低资源语言的无需语音的语音指令训练
发表
由
Alan Dao 提交
作者:
Alan Dao, Dinh Bach Vu, Huy Hoang Ha, Tuan Le Duc Anh, Shreyas Gopal, Yue Heng Yeo, Warren Keng Hoong Low, Eng Siong Chng, Jia Qi Yip
摘要
由大型语言模型(LLM)驱动的语音助手的快速增长,凸显了训练这些系统所需语音指令数据的需求。尽管语音识别数据丰富,但语音指令数据却明显稀缺,而这对于微调模型以理解和执行口头命令至关重要。生成高质量的合成语音需要一个好的文本到语音(TTS)模型,这对于资源匮乏的语言可能难以获得。我们的新颖方法通过在语义表示级别停止合成,绕过对 TTS 的需求来解决这一挑战。我们通过将合成的语义表示与预训练的 Whisper 编码器对齐来实现这一点,使得 LLM 能够在文本指令上进行微调,同时在推理过程中保持理解口头指令的能力。这种简化的训练过程是为资源匮乏的语言构建语音助手的有前景的方法。
由大型语言模型 (LLM) 提供支持的语音助手迅速增长,凸显了训练这些系统对语音指令数据的需求。尽管语音识别数据丰富,但语音指令数据却显著稀缺,而这对于微调模型以理解和执行语音命令至关重要。生成高质量的合成语音需要良好的文本转语音 (TTS) 模型,这对于低资源语言可能不可用。我们的新方法通过在语义表示层面停止合成来解决这一挑战,从而绕过了对 TTS 的需求。我们通过将合成语义表示与预训练的 Whisper 编码器对齐来实现这一目标,从而使 LLM 能够在文本指令上进行微调,同时在推理期间保持理解语音指令的能力。这种简化的训练过程是为低资源语言构建语音助手的一种有前景的方法。