⏶69
BitNet b1.58 2B4T 技术报告
发表
由
Hongyu Wang 提交

作者:
Shuming Ma,
Hongyu Wang,
Shaohan Huang,
Xingxing Zhang, Ying Hu, Ting Song, Yan Xia,
Furu Wei

摘要
我们推出了 BitNet b1.58 2B4T,这是首个开源的、原生的 1 比特大型语言模型 (LLM),参数规模达 20 亿。该模型在包含 4 万亿个 token 的语料库上进行训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当,同时在计算效率方面具有显着优势,包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步的研究和应用,模型权重已通过 Hugging Face 发布,并提供用于 GPU 和 CPU 架构的开源推理实现。
我们介绍了 BitNet b1.58 2B4T,首个开源、原生 1 比特大型语言模型 (LLM),参数规模达 20 亿。该模型在包含 4 万亿个 tokens 的语料库上进行训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当,同时在计算效率方面具有显著优势,包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步研究和应用,模型权重已通过 Hugging Face 发布,并附带适用于 GPU 和 CPU 架构的开源推理实现。
🔥 推理权重: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T
🔥 训练权重 (bf16): https://huggingface.co/microsoft/bitnet-b1.58-2B-4T-bf16
🧰 推理代码: https://github.com/microsoft/bitnet
📄 技术报告即将发布。
通过 https://bitnet-demo.azurewebsites.net 试用,我们正在烹饪更大的模型🥳🥳