Trillion 7B 技术报告

发表
Juyoung SukJuyoung Suk 提交
作者: Sungjun HanSungjun Han, Juyoung SukJuyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok KimKyuseok Kim, Wonsuk Yang, Seungtaek ChoiSeungtaek Choi, Jay ShinJamin Shin

摘要

我们推出 Trillion-7B,这是目前可用的、以韩语为中心的最词元高效的多语言LLM。我们新颖的跨语言文档注意力 (XLDA) 机制能够高效且有效地将知识从英语迁移到韩语和日语等目标语言。结合优化的数据混合、特定语言过滤和定制化分词器构建,Trillion-7B 在仅将其 2T 训练词元中的 10% 用于多语言数据的情况下,实现了具有竞争力的性能,且完成全部训练仅需 59.4K H100 GPU 小时(14.8 万美元)。在四种语言的 27 个基准测试中进行的全面评估展示了 Trillion-7B 强大的多语言性能和出色的跨语言一致性。
查看 arXiv 页面查看 PDF

评论

Juyoung SukJuyoung Suk
论文作者
论文提交者

Trillion-7B 技术报告,该模型是 Trillion Lab 最新推出的大型语言模型,旨在突破多语言可扩展性和性能的极限。