⏶52

Bielik 11B v2 技术报告

05月05日发表

05月12日由 Krzysztof Wróbel 提交

作者: Krzysztof Ociepa, Lukasz Flis Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remek Kinas Remigiusz Kinas

摘要

我们介绍 Bielik 11B v2，这是一款针对波兰语文本处理进行优化的最先进语言模型。该模型基于 Mistral 7B v0.2 架构构建，并使用深度扩展技术扩展到110亿参数，在波兰语基准测试中展现了卓越性能，同时保持了强大的跨语言能力。我们引入了两项关键技术创新：加权指令交叉熵损失 (Weighted Instruction Cross-Entropy Loss)，它通过为训练样本分配基于质量的权重来优化不同指令类型的学习；以及自适应学习率 (Adaptive Learning Rate)，它根据上下文长度进行动态调整。在多个基准测试中进行的全面评估表明，Bielik 11B v2 优于许多更大的模型，包括参数多其2-6倍的模型，并在从语言理解到复杂推理的各类任务上显著超越了其他专门的波兰语模型。该模型的参数效率和广泛的量化选项使其能够在各种硬件配置上部署，从而提升了波兰语人工智能能力，并为低资源语言中的资源高效语言建模树立了新基准。

查看 arXiv 页面查看 PDF

Krzysztof Wróbel

论文作者

论文提交者

演示：https://bielik.ai/

模型：

随时随地学习的音频概述：

Bielik 11B v2 技术报告

摘要

评论