⏶26
Stream-Omni:与大型语言-视觉-语音模型进行同步多模态交互
发表
由
Shaolei Zhang 提交
作者:
Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng
摘要
类似 GPT-4o 的大型多模态模型 (LMM) 的出现,促使人们探索整合文本、视觉和语音模态以支持更灵活的多模态交互。现有的 LMM 通常将模态表示沿序列维度拼接起来,并将其输入到大语言模型 (LLM) 主干中。虽然序列维度拼接对于模态整合来说是直接的,但它往往严重依赖于大规模数据来学习模态对齐。在本文中,我们旨在更有目标性地建模模态之间的关系,从而实现更高效、灵活的模态对齐。为此,我们提出了 Stream-Omni,一种具有高效模态对齐能力的大型语言-视觉-语音模型,它能同时支持各种模态组合下的交互。Stream-Omni 以 LLM 作为主干,并根据视觉和语音与文本的关系将它们对齐到文本。对于在语义上与文本互补的视觉,Stream-Omni 使用序列维度拼接来实现视觉-文本对齐。对于在语义上与文本一致的语音,Stream-Omni 引入了基于 CTC 的层维度映射来实现语音-文本对齐。通过这种方式,Stream-Omni 可以用更少的数据(尤其是语音)实现模态对齐,从而将文本能力迁移到其他模态。在各种基准上的实验表明,Stream-Omni 在视觉理解、语音交互和基于视觉的语音交互任务上取得了强大的性能。得益于层维度映射,Stream-Omni 可以在语音交互过程中同时提供中间文本输出(如 ASR 转录和模型响应),为用户提供全面的多模态体验。
Stream-Omni 是一种类似 GPT-4o 的语言-视觉-语音聊天机器人,可同时支持各种模态组合的交互。
支持包括文本、视觉和语音在内的多模态输入,并生成文本和语音响应。
在语音交互过程中,像 GPT-4o 的高级语音服务一样,同时输出中间文本结果(例如,ASR 转录和模型响应)。
仅需少量全模态数据即可进行训练。