⏶115
Kuwain 1.5B:通过语言注入实现的阿拉伯语小型语言模型
发表
由
Khalil Hennara 提交

作者:
Khalil Hennara,
Sara Chrouf,
Mohamed Motaism Hamed,
Zeina Aldallal,
Omar Hadid, Safwan AlModhayan



摘要
增强现有模型并融入新知识是人工智能开发中的一个关键方面。本文介绍了一种将新语言集成到大型语言模型(LLM)中的新颖方法。我们的方法成功地将一种此前未接触过的目标语言集成到现有LLM中,而不损害其先验知识。我们训练了一个名为 Kuwain 的拥有15亿参数的小型模型,方法是将阿拉伯语注入到一个主要用英语训练的小型开源模型中。我们的方法表明,在阿拉伯语性能方面有显著改进,在各种基准测试中平均提高了8%,同时仅利用极少量的原始模型数据就保留了模型的现有知识。这提供了一种具有成本效益的替代方案,用于训练一个全面的同时涵盖英语和阿拉伯语的模型。结果突显了在不进行大规模再训练或资源密集型流程的情况下,实现高效、有针对性语言模型扩展的潜力。
评论

很高兴看到支持更多语言的新多语言 LLM!
两个月前,我们的 Sailor2 模型(面向东南亚语言的 LLM)也探索了模型扩展,以期在新语言上获得更多提升,并减少对现有语言的退化。更多详情请参见 https://huggingface.co/papers/2502.12982 。
欢迎关注和讨论!
本文介绍了一种将新语言集成到大型语言模型 (LLM) 中的新方法。我们的方法成功地将先前未见的目标语言整合到现有的LLM中,而不会损害其先验知识。此外,我们只需要利用来自其先验知识的极少量数据进行训练。