扩展和增强基于 LLM 的 AVSR:稀疏投影器混合方法

发表
Umberto CappellazzoUmberto Cappellazzo 提交
作者: Umberto CappellazzoUmberto Cappellazzo, Minsu Kim, Stavros Petridis, Daniele Falavigna, Alessio Brutti

摘要

视听语音识别 (AVSR) 通过整合视觉信息,增强了在嘈杂环境中的鲁棒性。尽管最近的进展将大型语言模型 (LLMs) 集成到 AVSR 中,但它们高昂的计算成本阻碍了在资源受限环境中的部署。为此,我们提出了 Llama-SMoP,这是一种高效的多模态大型语言模型,它采用稀疏投射器混合 (SMoP) 模块来扩展模型容量,同时不增加推理成本。通过集成稀疏门控的专家混合 (MoE) 投射器,Llama-SMoP 使得可以使用更小的 LLM,同时保持强大的性能。我们探索了三种 SMoP 配置,并表明 Llama-SMoP DEDR (分离专家,分离路由器),它使用模态特定的路由器和专家,在 ASR、VSR 和 AVSR 任务上性能卓越。消融研究证实了它在专家激活、可扩展性和噪声鲁棒性方面的有效性。
查看 arXiv 页面查看 PDF

评论

Umberto CappellazzoUmberto Cappellazzo
论文作者
论文提交者

我们提出 Llama-SMoP(稀疏投影器混合),这是一种用于视听语音识别(AVSR)的多模态大语言模型(MLLM),它将专家混合模型(MoE)应用于线性投影器中,以处理视听 token。我们的模块简单、有效且模型无关,在不同大小的三个 Llama 大语言模型上提高了 AVSR 能力。Llama-SMoP 对噪声也具有鲁棒性,并且在 ASR 和 VSR 任务上表现良好。