ModernGBERT:从头开始训练的德语专用10亿参数编码器模型

发表
Jan PfisterJan Pfister 提交
作者: Anton Ehrmanntraut, Julia WunderleJulia Wunderle, Jan PfisterJan Pfister, Fotis Jannidis, Andreas Hotho

摘要

尽管仅解码器语言模型日益突出,但编码器对于资源受限的应用仍然至关重要。我们引入了 ModernGBERT (134M, 1B),这是一系列从头开始训练的完全透明的德语编码器模型家族,融合了 ModernBERT 的架构创新。为了评估从头训练编码器的实际权衡,我们还提出了 LL\"aMmlein2Vec (120M, 1B, 7B),这是一系列通过 LLM2Vec 从德语仅解码器模型衍生出的编码器家族。我们在自然语言理解、文本嵌入和长文本推理任务上对所有模型进行了基准测试,从而能够对专用编码器和转换后的解码器进行受控比较。我们的结果表明,就性能和参数效率而言,ModernGBERT 1B 优于先前的最先进德语编码器以及通过 LLM2Vec 转换的编码器。所有模型、训练数据、检查点和代码均公开可用,通过透明、高性能的编码器模型推动了德语 NLP 生态系统的发展。
查看 arXiv 页面查看 PDF
ModernGBERT:从头开始训练的德语专用10亿参数编码器模型

评论

Jan PfisterJan Pfister
论文作者
论文提交者

我们的新颖现代德语编码器模型 — 完全从零开始训练 🚀