⏶35
Trillion 7B 技术报告
发表
由
Juyoung Suk 提交

作者:
Sungjun Han,
Juyoung Suk, Suyeong An, Hyungguk Kim,
Kyuseok Kim, Wonsuk Yang,
Seungtaek Choi,
Jamin Shin


摘要
我们推出 Trillion-7B,这是目前可用的、以韩语为中心的最词元高效的多语言LLM。我们新颖的跨语言文档注意力 (XLDA) 机制能够高效且有效地将知识从英语迁移到韩语和日语等目标语言。结合优化的数据混合、特定语言过滤和定制化分词器构建,Trillion-7B 在仅将其 2T 训练词元中的 10% 用于多语言数据的情况下,实现了具有竞争力的性能,且完成全部训练仅需 59.4K H100 GPU 小时(14.8 万美元)。在四种语言的 27 个基准测试中进行的全面评估展示了 Trillion-7B 强大的多语言性能和出色的跨语言一致性。
Trillion-7B 技术报告,该模型是 Trillion Lab 最新推出的大型语言模型,旨在突破多语言可扩展性和性能的极限。