⏶28
InteractiveOmni: 一个统一的全模态模型,用于音频-视觉多轮对话
发表
由
Wenwen Tong 提交
作者:
Wenwen Tong,
Hewei Guo, Dongchuan Ran,
Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu,
Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
摘要
AI 生成总结
InteractiveOmni 是一个统一的全模态大型语言模型,支持视听多轮交互,提供全面的理解和语音生成能力,同时实现高效的参数利用。我们提出了 InteractiveOmni,一个统一的开源全模态大语言模型,支持多轮音视频交互,参数量从 40 亿到 80 亿不等。它旨在通过提供全面的全模态理解和语音生成能力,引领轻量级模型领域。为此,我们将视觉编码器、音频编码器、大语言模型和语音解码器集成到一个统一的模型中,用于理解和生成任务。我们设计了一个多阶段训练策略,以确保强大的跨模态能力,包括针对全模态理解的预训练,随后进行语音对话和音视频交互的后训练。为了实现类似人类的长期对话能力,我们精心策划了一个多轮训练数据集,以增强模型处理复杂和多轮交互的能力。为了有效评估多轮记忆和语音交互能力,我们构建了多模态多轮记忆基准和多轮语音交互基准。实验表明,InteractiveOmni 在性能上显著优于领先的开源模型,并提供了更智能的多轮音视频体验,尤其是在其长期记忆能力方面。值得注意的是,InteractiveOmni-4B 在通用基准测试上与 Qwen2.5-Omni-7B 等规模大得多的模型相当,并且在仅使用一半模型规模的情况下,仍能保持 InteractiveOmni-8B 97% 的性能。InteractiveOmni 在图像、音频、视频理解和语音生成等任务上取得了与同等规模模型相当的最先进成果,是下一代智能交互系统的一个可访问的开源基础。
我们介绍了InteractiveOmni,一个统一且开源的全模态大型语言模型,用于音频-视觉多轮交互,参数量从4B到8B不等。该模型旨在通过提供全面的全模态理解和语音生成能力,引领轻量级模型领域。为此,我们将视觉编码器、音频编码器、大型语言模型和语音解码器集成到一个统一的模型中,用于理解和生成任务。我们设计了一个多阶段训练策略,以确保强大的跨模态能力,包括全模态理解的预训练,然后进行语音对话和音频-视觉交互的后训练。为了实现类似人类的长期对话能力,我们精心策划了一个多轮训练数据集,以增强模型处理复杂和多轮交互的能力。为了有效地评估多轮记忆和语音交互能力,我们构建了多模态多轮记忆基准和多轮语音交互基准。实验表明,InteractiveOmni在各项指标上显著优于领先的开源模型,并提供了更智能的多轮音频-视觉体验,尤其是在长期记忆能力方面。值得注意的是,InteractiveOmni-4B在通用基准测试上与更大的模型如Qwen2.5-Omni-7B相当,并且在模型尺寸仅为一半的情况下,仍能保留InteractiveOmni-8B 97%的性能。InteractiveOmni在图像、音频、视频理解和语音生成等任务上均取得了与同等规模模型相比的最先进成果,是下一代智能交互系统的一个易于访问的开源基础。