⏶30
Qwen3 Embedding:通过基础模型改进文本嵌入和重排序
发表
由
Dingkun Long 提交
作者: Yanzhao Zhang, Mingxin Li,
Dingkun Long,
Xin Zhang, Huan Lin, Baosong Yang, Pengjun Xie, An Yang, Dayiheng Liu, Junyang Lin, Fei Huang, Jingren Zhou

摘要
在这项工作中,我们介绍了 Qwen3 Embedding 系列,这是基于 Qwen3 基础模型构建的,在文本嵌入和重排序能力方面相比其前身 GTE-Qwen 系列有了显著提升。利用 Qwen3 LLMs 在多语言文本理解和生成方面的强大能力,我们创新的多阶段训练流程将大规模无监督预训练与高质量数据集上的监督微调相结合。有效的模型融合策略进一步确保了 Qwen3 Embedding 系列的鲁棒性和适应性。在训练过程中,Qwen3 LLMs 不仅充当骨干模型,还在合成高质量、丰富和多样的跨多个领域和语言的训练数据方面发挥着关键作用,从而增强了训练流程。Qwen3 Embedding 系列为嵌入和重排序任务提供了不同大小的模型(0.6B、4B、8B),以应对用户可以优化效率或有效性的多样化部署场景。实证评估表明,Qwen3 Embedding 系列在各种基准上取得了最先进的结果。值得注意的是,它在用于文本嵌入的多语言评估基准 MTEB 以及各种检索任务(包括代码检索、跨语言检索和多语言检索)中表现出色。为了促进可复现性并推动社区驱动的研究和开发,Qwen3 Embedding 模型已在 Apache 2.0 许可下公开提供。
🚀 我们推出 Qwen3-Embedding 和 Qwen3-Reranker 系列:为多语言文本嵌入和重排序设定了新标准!
✨ 亮点:
✅ 提供 0.6B / 4B / 8B 版本
✅ 支持 119 种语言
✅ 在 MMTEB、MTEB 和 MTEB-Code 上表现出最先进的性能
✅ 在 Hugging Face、GitHub 和 ModelScope 上开源
✅ 可通过阿里云 API 即用
🔍 赋能用例:
文档检索、RAG、分类、情感分析、代码搜索等等!
🔗 立即探索:
Hugging Face
Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
GitHub : https://github.com/QwenLM/Qwen3-Embedding
博客 : https://qwenlm.github.io/blog/qwen3-embedding/