Hala技术报告:大规模构建以阿拉伯语为中心的指令和翻译模型

发表
Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud 提交
作者: Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud, Mohammad ZbeebMohammad Zbeeb, Bernard Ghanem

摘要

AI 生成总结
Hala 是一系列以阿拉伯语为中心的指令和翻译模型,它通过使用翻译-调优流水线、slerp 合并以及在高质量双语监督下进行微调,取得了最先进的结果。
我们推出了 Hala,这是一个以阿拉伯语为中心的一系列指令和翻译模型,采用我们的翻译和微调管道构建。我们首先将一个强大的 AR↔EN 教师模型压缩到 FP8(在不损失质量的情况下实现 sim2 倍的更高吞吐量),并使用它来创建高质量的双语监督。然后,一个轻量级的语言模型 LFM2-1.2B 在此数据上进行微调,并用于将高质量的英语指令集翻译成阿拉伯语,从而生成一个百万规模的、针对指令遵循的语料库。我们在 350M、700M、1.2B 和 9B 参数上训练 Hala 模型,并应用 slerp 混合来平衡阿拉伯语专业化和基础模型的优势。在以阿拉伯语为中心的基准测试上,Hala 在“nano”(≤2B)和“small”(7-9B)类别中均取得了最先进的结果,优于其基础模型。我们发布了模型、数据、评估和配方,以加速阿拉伯语 NLP 的研究。
查看 arXiv 页面查看 PDF

评论

Hasan Abed Al Kader HammoudHasan Abed Al Kader Hammoud
论文作者
论文提交者

一系列最先进的纳米级和小型阿拉伯语语言模型。