⏶115

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型

04月21日发表

04月23日由 Khalil Hennara 提交

作者: Khalil Hennara, Sara Chrouf, Mohamed Motasim Hamed Mohamed Motaism Hamed, Zeina Aldallal, Mohammad Omar Hadid Omar Hadid, Safwan AlModhayan

摘要

增强现有模型并融入新知识是人工智能开发中的一个关键方面。本文介绍了一种将新语言集成到大型语言模型（LLM）中的新颖方法。我们的方法成功地将一种此前未接触过的目标语言集成到现有LLM中，而不损害其先验知识。我们训练了一个名为 Kuwain 的拥有15亿参数的小型模型，方法是将阿拉伯语注入到一个主要用英语训练的小型开源模型中。我们的方法表明，在阿拉伯语性能方面有显著改进，在各种基准测试中平均提高了8%，同时仅利用极少量的原始模型数据就保留了模型的现有知识。这提供了一种具有成本效益的替代方案，用于训练一个全面的同时涵盖英语和阿拉伯语的模型。结果突显了在不进行大规模再训练或资源密集型流程的情况下，实现高效、有针对性语言模型扩展的潜力。

查看 arXiv 页面查看 PDF

Khalil Hennara

论文作者

论文提交者

本文介绍了一种将新语言集成到大型语言模型 (LLM) 中的新方法。我们的方法成功地将先前未见的目标语言整合到现有的LLM中，而不会损害其先验知识。此外，我们只需要利用来自其先验知识的极少量数据进行训练。

hosi

请帮我写一本关于园艺的 40 页电子书

Longxu Dou

很高兴看到支持更多语言的新多语言 LLM！

两个月前，我们的 Sailor2 模型（面向东南亚语言的 LLM）也探索了模型扩展，以期在新语言上获得更多提升，并减少对现有语言的退化。更多详情请参见 https://huggingface.co/papers/2502.12982 。

欢迎关注和讨论！

Khalil Hennara

论文作者

论文提交者

这是一篇非常引人入胜的论文，我读了，觉得受益匪浅，@dreamerdeo 你做得非常棒。他们详细阐述了整个大语言模型 (LLM) 的流水线开发过程，从预训练到后训练 (监督微调和 LR-DPO)。他们还实现了一种具有新视角的剪枝算法。我强烈推荐阅读这篇论文，因为它能为大语言模型 (LLM) 的发展提供深刻的见解。我们目前正在努力扩展我们的数据和模型，不久将来我们将发布一个大型阿拉伯语数据集，以丰富该领域，并鼓励研究人员在阿拉伯语领域进行研究。

Derry Pratama

Kuwain == Qwen ??

Khalil Hennara

论文作者

论文提交者

kuwain 是阿拉伯语单词 (Kawn) 的一个小型化形式，其意思是“宇宙”。因此，“Kuwain”的意思是“微小的宇宙”或“小宇宙”。

Kuwain 1.5B：通过语言注入实现的阿拉伯语小型语言模型

摘要

评论