Kuwain 1.5B:通过语言注入实现的阿拉伯语小型语言模型

发表
Khalil HennaraKhalil Hennara 提交
作者: Khalil HennaraKhalil Hennara, Sara ChroufSara Chrouf, Mohamed Motasim HamedMohamed Motaism Hamed, Zeina AldallalZeina Aldallal, Mohammad Omar HadidOmar Hadid, Safwan AlModhayan

摘要

增强现有模型并融入新知识是人工智能开发中的一个关键方面。本文介绍了一种将新语言集成到大型语言模型(LLM)中的新颖方法。我们的方法成功地将一种此前未接触过的目标语言集成到现有LLM中,而不损害其先验知识。我们训练了一个名为 Kuwain 的拥有15亿参数的小型模型,方法是将阿拉伯语注入到一个主要用英语训练的小型开源模型中。我们的方法表明,在阿拉伯语性能方面有显著改进,在各种基准测试中平均提高了8%,同时仅利用极少量的原始模型数据就保留了模型的现有知识。这提供了一种具有成本效益的替代方案,用于训练一个全面的同时涵盖英语和阿拉伯语的模型。结果突显了在不进行大规模再训练或资源密集型流程的情况下,实现高效、有针对性语言模型扩展的潜力。
查看 arXiv 页面查看 PDF

评论

Khalil HennaraKhalil Hennara
论文作者
论文提交者

本文介绍了一种将新语言集成到大型语言模型 (LLM) 中的新方法。我们的方法成功地将先前未见的目标语言整合到现有的LLM中,而不会损害其先验知识。此外,我们只需要利用来自其先验知识的极少量数据进行训练。

hosihosi

请帮我写一本关于园艺的 40 页电子书

Longxu DouLongxu Dou

很高兴看到支持更多语言的新多语言 LLM!

两个月前,我们的 Sailor2 模型(面向东南亚语言的 LLM)也探索了模型扩展,以期在新语言上获得更多提升,并减少对现有语言的退化。更多详情请参见 https://huggingface.co/papers/2502.12982

欢迎关注和讨论!

Khalil HennaraKhalil Hennara
论文作者
论文提交者

这是一篇非常引人入胜的论文,我读了,觉得受益匪浅,@dreamerdeo 你做得非常棒。他们详细阐述了整个大语言模型 (LLM) 的流水线开发过程,从预训练到后训练 (监督微调和 LR-DPO)。他们还实现了一种具有新视角的剪枝算法。我强烈推荐阅读这篇论文,因为它能为大语言模型 (LLM) 的发展提供深刻的见解。我们目前正在努力扩展我们的数据和模型,不久将来我们将发布一个大型阿拉伯语数据集,以丰富该领域,并鼓励研究人员在阿拉伯语领域进行研究。

Derry PratamaDerry Pratama

Kuwain == Qwen ??

Khalil HennaraKhalil Hennara
论文作者
论文提交者

kuwain 是阿拉伯语单词 (Kawn) 的一个小型化形式,其意思是“宇宙”。因此,“Kuwain”的意思是“微小的宇宙”或“小宇宙”。