Qwen3-Omni 技术报告

发表
taesiritaesiri 提交
作者: Jin Xu, GuoZhifangZhifang Guo, Hangrui Hu, Yunfei ChuYunfei Chu, Xiong Wang, Jinzheng HeJinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, YuanjunLvYuanjun Lv, Yongqi WangYongqi Wang, Dake Guo, He Wang, Linhan MaLinhan Ma, Pei Zhang, Xinyu Zhang, hongkun haoHongkun Hao, guozishanZishan Guo, Baosong YangBaosong Yang, Bin Zhang, Ziyang MaZiyang Ma, Xipin Wei, Shuai Bai, Keqin ChenKeqin Chen, Xuejing Liu, Peng Wang, Mingkun YangMingkun Yang, Dayiheng LiuDayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, jianxin YangJianxin Yang, Le Yu, ZhouJingren Zhou, Junyang LinJunyang Lin

摘要

AI 生成总结
Qwen3-Omni 是一种多模态模型,它使用 Thinker-Talker MoE 架构和轻量级因果卷积网络实现高效的流式合成,在文本、图像、音频和视频方面取得了最先进的性能。
我们提出了 Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频方面保持了最先进的性能,而与单一模态的对应模型相比没有任何退化。Qwen3-Omni 在 Qwen 系列中与同等大小的单一模态模型性能相当,在音频任务上表现尤其出色。在 36 个音频和视听基准测试中,Qwen3-Omni 在 32 个基准测试中达到了开源 SOTA,在 22 个基准测试中达到了整体 SOTA,性能优于 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大的闭源模型。Qwen3-Omni 采用了 Thinker-Talker MoE 架构,统一了文本、图像、音频和视频的感知和生成,从而实现了流畅的文本和自然的实时语音。它支持 119 种语言的文本交互、19 种语言的语音理解以及 10 种语言的语音生成。为了降低流式合成中的首包延迟,Talker 采用多码本方案自回归预测离散语音码本。利用这些码本的表征能力,我们用轻量级因果卷积网络取代计算密集型的块状扩散,从而可以从第一个码本帧开始流式传输。在冷启动设置下,Qwen3-Omni 实现了理论上的端到端首包延迟 234 毫秒。为了进一步加强多模态推理,我们引入了一个“思考者”(Thinking)模型,它可以明确地对来自任何模态的输入进行推理。由于研究界目前缺乏通用的音频字幕模型,我们对 Qwen3-Omni-30B-A3B 进行了微调,得到了 Qwen3-Omni-30B-A3B-Captioner,它可以为任意音频输入生成详细、低幻觉的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner 均根据 Apache 2.0 许可证公开发布。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们提出了 Qwen3-Omni,这是一个单一的多模态模型,它首次在文本、图像、音频和视频方面保持了最先进的性能,而与单模态对应模型相比没有任何退化。Qwen3-Omni 在 Qwen 系列中的表现与相同大小的单模态模型相当,尤其在音频任务上表现出色。在 36 个音频和视音频基准测试中,Qwen3-Omni 在 32 个基准测试中达到了开源 SOTA,在 22 个基准测试中达到了总体 SOTA,其性能优于 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大的闭源模型。Qwen3-Omni 采用了 Thinker-Talker MoE 架构,统一了跨文本、图像、音频和视频的感知和生成,产生了流畅的文本和自然的实时语音。它支持 119 种语言的文本交互、19 种语言的语音理解以及 10 种语言的语音生成。为了减少流式合成中的首包延迟,Talker 使用多码本方案自回归预测离散语音码本。利用这些码本的表征能力,我们用轻量级的因果卷积网络取代了计算密集型的块状扩散,从而能够从第一个码本帧开始流式传输。在冷启动场景下,Qwen3-Omni 实现了 234 毫秒的理论端到端首包延迟。为了进一步加强多模态推理,我们引入了一个“思考”模型,该模型对来自任何模态的输入进行显式推理。由于研究社区目前缺乏通用的音频字幕模型,我们对 Qwen3-Omni-30B-A3B 进行了微调,得到了 Qwen3-Omni-30B-A3B-Captioner,它可以为任意音频输入生成详细、低幻觉的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner 在 Apache 2.0 许可下公开发布。

Hongwen HsiehHongwen Hsieh
此评论已隐藏。
Yury PanikovYury Panikov

太好了,感谢 Apache 许可证!