GATE:通用阿拉伯语文本嵌入,用于增强语义文本相似度,采用 Matryoshka 表示学习和混合损失训练

发表
Omartificial Intelligence SpaceOmartificial Intelligence Space 提交
作者: Omartificial Intelligence SpaceOmer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

摘要

语义文本相似度 (STS) 是自然语言处理 (NLP) 中的一项关键任务,可以在检索、聚类和理解文本之间的语义关系方面实现应用。然而,针对阿拉伯语的该领域研究仍然有限,由于缺乏高质量数据集和预训练模型。这种资源稀缺性限制了阿拉伯语文本中语义相似度的准确评估和进步。本文介绍了通用阿拉伯语文本嵌入 (GATE) 模型,这些模型在 MTEB 基准测试中的语义文本相似度任务上取得了最先进的性能。GATE 利用了俄罗斯套娃表示学习 (Matryoshka Representation Learning) 和一种混合损失训练方法,结合用于自然语言推理的阿拉伯语三元组数据集,这些对于提升模型在需要细粒度语义理解的任务中的性能至关重要。GATE 的性能优于包括 OpenAI 在内的更大模型,在 STS 基准测试中实现了 20-25% 的性能提升,有效地捕捉了阿拉伯语独特的语义细微之处。
查看 arXiv 页面查看 PDF

评论

Omartificial Intelligence SpaceOmartificial Intelligence Space
论文作者
论文提交者
🧠 阿拉伯语套娃式嵌入模型集合

欢迎来到官方 阿拉伯语套娃式嵌入模型 集合!

此集合展示了一系列使用以下技术构建的尖端阿拉伯语文本嵌入模型:

  • 🪆 套娃式表示学习

  • ⚙️ 混合损失多任务训练

  • 🔁 阿拉伯语三元组和NLI数据集

这些模型旨在 捕获阿拉伯语中细粒度的语义相似性,同时保持 高效、可扩展资源友好


📌 内容概览
  • ✅ 在阿拉伯语 STS 基准测试(MTEB:STS17, STS22, STS22-v2)上达到 最先进 性能

  • 多维嵌入 (768, 512, 256, 128, 64)

  • ✅ 模型在阿拉伯语任务上超越了像 OpenAIMistral-7B 这样大得多的LLM

  • ✅ 使用 对比三元组学习softmax分类余弦相似度损失 进行训练

  • ✅ 在套娃式框架内包含了对 AraBERTMARBERTLaBSEE5 的改进版本


🚀 我们研究的亮点(GATE 论文)

📰 论文标题

GATE: 用于增强语义文本相似性的通用阿拉伯语文本嵌入,采用套娃式表示学习和混合损失训练

📄 在arXiv上阅读

https://arxiv.org/abs/2505.24581

📊 主要成就

  • 在阿拉伯语STS上比OpenAI嵌入提高高达 +25%

  • 仅有 1.35亿参数 的模型击败了十亿参数的LLM

  • 即使在降维(64维!)情况下也能保持高性能

  • 首次对 基于阿拉伯语三元组的对比嵌入 进行大规模基准测试


🔥 顶级模型(截至目前)
模型名称 基础模型 类型 STS平均分数
Arabic-Triplet-Matryoshka-V2 AraBERT Triplet + MRL 69.99
GATE-AraBERT-V1 AraBERT Hybrid Loss + MRL 68.54
Arabic-LabSE-Matryoshka LaBSE Triplet + MRL 66.76
Marbert-AllNLI-Triplet-Matryoshka MARBERT Dialect-Aware 67.19
E5-AllNLI-Triplet-Matryoshka multilingual-E5 Cross-lingual 65.45

📦 集合链接

🔗 探索所有模型:

👉 阿拉伯语套娃式嵌入模型集合


🧪 用例
  • 阿拉伯语语义搜索

  • 重复问题检测

  • 聚类与检索

  • 阿拉伯语文本理解任务

  • 面向低资源环境的可扩展NLP


🛠️ 训练详情
  • 硬件:NVIDIA A100 GPU

  • 框架:🤗 sentence-transformers,自定义 SentenceTransformerTrainer

  • 数据集:阿拉伯语三元组-NLI,STS对,分类数据集

  • 训练损失:MultipleNegativesRankingLossCoSentLossSoftmaxLossMatryoshkaLoss

  • 维度:使用 [768, 512, 256, 128, 64] 进行训练


👋 贡献与反馈

我们欢迎反馈、基准测试和贡献!

如果您对这些模型进行了微调或在新的阿拉伯语数据集上进行了测试,请告诉我们!

📧 联系方式:onajar@psu.edu.sa


让我们让 阿拉伯语NLP 更快、更智能、更易访问——一次一个嵌入。🌍