BitNet b1.58 2B4T 技术报告

发表
Hongyu WangHongyu Wang 提交
作者: Shuming MaShuming Ma, Hongyu WangHongyu Wang, HUANG SHAOHANShaohan Huang, Xingxing ZhangXingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu WeiFuru Wei

摘要

我们推出了 BitNet b1.58 2B4T,这是首个开源的、原生的 1 比特大型语言模型 (LLM),参数规模达 20 亿。该模型在包含 4 万亿个 token 的语料库上进行训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当,同时在计算效率方面具有显着优势,包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步的研究和应用,模型权重已通过 Hugging Face 发布,并提供用于 GPU 和 CPU 架构的开源推理实现。
查看 arXiv 页面查看 PDF

评论

Hongyu WangHongyu Wang
论文作者
论文提交者

我们介绍了 BitNet b1.58 2B4T,首个开源、原生 1 比特大型语言模型 (LLM),参数规模达 20 亿。该模型在包含 4 万亿个 tokens 的语料库上进行训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当,同时在计算效率方面具有显著优势,包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步研究和应用,模型权重已通过 Hugging Face 发布,并附带适用于 GPU 和 CPU 架构的开源推理实现。

🔥 推理权重: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

🔥 训练权重 (bf16): https://huggingface.co/microsoft/bitnet-b1.58-2B-4T-bf16

🧰 推理代码: https://github.com/microsoft/bitnet

📄 技术报告即将发布。

通过 https://bitnet-demo.azurewebsites.net 试用,我们正在烹饪更大的模型🥳🥳