⏶63
Bielik v3 小型版:技术报告
发表
由
Krzysztof Wróbel 提交

作者:
Krzysztof Ociepa,
Łukasz Flis,
Remigiusz Kinas,
Krzysztof Wróbel,
Adrian Gwoździej



摘要
我们推出 Bielik v3,这是一系列参数高效的生成式文本模型(15亿和45亿参数),针对波兰语处理进行了优化。这些模型表明,经过良好优化的小型架构可以在显著减少计算资源的情况下,实现与大得多的对应模型相当的性能。我们的方法融合了几项关键创新:一个显著提高了分词效率的定制波兰语分词器 (APT4),用于平衡不同指令类型学习的加权指令交叉熵损失 (Weighted Instruction Cross-Entropy Loss),以及根据训练进度动态调整的自适应学习率 (Adaptive Learning Rate)。这些模型在一个精心整理的语料库上进行训练,该语料库包含2920亿个词元和3.03亿份文档,在多个基准测试中表现出色,包括 Open PL LLM Leaderboard、复杂波兰语文本理解基准测试、波兰语 EQ-Bench 和波兰语医学 Leaderboard。45亿参数模型的表现与比其大2-3倍的模型具有竞争力,而15亿参数模型尽管体型极为紧凑,但仍展现出强大的性能。这些进步为低资源语言中的参数高效语言建模树立了新基准,使高质量的波兰语人工智能对资源受限的应用更易于使用。
演示:https://bielik.ai/
模型:
https://huggingface.co/speakleash/Bielik-4.5B-v3.0-Instruct
https://huggingface.co/speakleash/Bielik-1.5B-v3.0-Instruct