⏶62
KORMo:面向所有人的韩语开放推理模型
发表
由
min jun kim 提交

作者:
Minjun Kim,
Hyeonseok Lim,
Hangyeol Yoo, Inho Won,
Seungwoo Song,
Minkyung Cho, Junhun Yuk, Changsu Choi,
Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim



摘要
AI 生成总结
一项利用合成数据构建完全开放的双语韩语 LLM 的大规模调查表明,此类数据可以支持预训练并达到与多语言基线相当的性能。这项工作对构建一个完全开放的、针对非英语语言(具体来说是韩语)的双语大型语言模型(LLM)进行了首次大规模调查,该模型主要在合成数据上进行训练。我们推出了 KORMo-10B,一个拥有 10.8B 参数的模型,该模型从零开始在一个韩语-英语语料库上进行训练,其中韩语部分的 68.74% 是合成数据。通过系统性的实验,我们证明了精心策划、具有平衡的语言覆盖范围和多样化指令风格的合成数据,在进行大规模预训练时不会导致不稳定性或性能下降。此外,该模型在广泛的推理、知识和指令遵循基准测试中,取得了与当代开放权重多语言基线模型相媲美的性能。我们的实验揭示了两个关键发现:(1) 合成数据可以可靠地支持长期预训练而不发生模型崩溃;(2) 双语指令调优能够实现接近母语水平的韩语推理和话语连贯性。通过完全公开数据、代码、训练配方和日志等所有组件,这项工作为在资源稀缺的环境中开发由合成数据驱动的完全开放模型(FOMs)建立了一个透明的框架,并为未来的多语言 LLM 研究树立了一个可复现的先例。
HF 仓库:https://huggingface.co/KORMo-Team