⏶16
优化面向意大利语的LLM:通过词汇适应减少Token冗余并提升效率
发表
由
Alessio Miaschi 提交

作者:
Luca Moroni,
Giovanni Puccetti,
Pere-Lluis Huguet Cabot,
Andrei Stefan Bejgu,
Edoardo Barba,
Alessio Miaschi,
Felice Dell'Orletta,
Andrea Esuli,
Roberto Navigli








摘要
预训练大型语言模型(LLMs)的数量正在稳步增加,但其中大多数主要针对英语设计。尽管最先进的LLMs由于语言污染或多语言预训练数据的存在,能够处理其他语言,但它们并非为非英语语言优化,导致编码效率低下(高标记“生育率”)和推理速度较慢。在这项工作中,我们彻底比较了各种词汇适应技术,以优化针对意大利语的英语LLMs,并提出了语义对齐词汇适应(SAVA)这一新方法,该方法利用神经映射进行词汇替换。SAVA在多项下游任务中取得了具有竞争力的性能,增强了基础对齐策略。我们对两个LLMs进行了适应:Mistral-7b-v0.1 将标记生育率降低了25%,以及Llama-3.1-8B,优化了词汇并减少了10亿个参数。我们表明,在词汇适应之后,这些模型可以通过在目标语言上相对有限的持续训练阶段来恢复其性能。最后,我们在各种多项选择和生成任务上测试了经过适应的模型的性能。