⏶35

Trillion 7B 技术报告

04月21日发表

04月24日由 Juyoung Suk 提交

作者: Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jay Shin Jamin Shin

摘要

我们推出 Trillion-7B，这是目前可用的、以韩语为中心的最词元高效的多语言LLM。我们新颖的跨语言文档注意力 (XLDA) 机制能够高效且有效地将知识从英语迁移到韩语和日语等目标语言。结合优化的数据混合、特定语言过滤和定制化分词器构建，Trillion-7B 在仅将其 2T 训练词元中的 10% 用于多语言数据的情况下，实现了具有竞争力的性能，且完成全部训练仅需 59.4K H100 GPU 小时（14.8 万美元）。在四种语言的 27 个基准测试中进行的全面评估展示了 Trillion-7B 强大的多语言性能和出色的跨语言一致性。

查看 arXiv 页面查看 PDF

Juyoung Suk

论文作者

论文提交者

Trillion-7B 技术报告，该模型是 Trillion Lab 最新推出的大型语言模型，旨在突破多语言可扩展性和性能的极限。

Trillion 7B 技术报告

摘要

评论