⏶52
Bielik 11B v2 技术报告
发表
由
Krzysztof Wróbel 提交

作者:
Krzysztof Ociepa,
Łukasz Flis,
Krzysztof Wróbel,
Adrian Gwoździej,
Remigiusz Kinas



摘要
我们介绍 Bielik 11B v2,这是一款针对波兰语文本处理进行优化的最先进语言模型。该模型基于 Mistral 7B v0.2 架构构建,并使用深度扩展技术扩展到110亿参数,在波兰语基准测试中展现了卓越性能,同时保持了强大的跨语言能力。我们引入了两项关键技术创新:加权指令交叉熵损失 (Weighted Instruction Cross-Entropy Loss),它通过为训练样本分配基于质量的权重来优化不同指令类型的学习;以及自适应学习率 (Adaptive Learning Rate),它根据上下文长度进行动态调整。在多个基准测试中进行的全面评估表明,Bielik 11B v2 优于许多更大的模型,包括参数多其2-6倍的模型,并在从语言理解到复杂推理的各类任务上显著超越了其他专门的波兰语模型。该模型的参数效率和广泛的量化选项使其能够在各种硬件配置上部署,从而提升了波兰语人工智能能力,并为低资源语言中的资源高效语言建模树立了新基准。
演示:https://bielik.ai/
模型:
https://huggingface.co/speakleash/Bielik-11B-v2.5-Instruct
https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct
https://huggingface.co/speakleash/Bielik-11B-v2