⏶69

BitNet b1.58 2B4T 技术报告

04月16日发表

04月17日由 Hongyu Wang 提交

作者: Shuming Ma, Hongyu Wang, HUANG SHAOHAN Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

摘要

我们推出了 BitNet b1.58 2B4T，这是首个开源的、原生的 1 比特大型语言模型 (LLM)，参数规模达 20 亿。该模型在包含 4 万亿个 token 的语料库上进行训练，并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明，BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当，同时在计算效率方面具有显着优势，包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步的研究和应用，模型权重已通过 Hugging Face 发布，并提供用于 GPU 和 CPU 架构的开源推理实现。

查看 arXiv 页面查看 PDF

Hongyu Wang

论文作者

论文提交者

我们介绍了 BitNet b1.58 2B4T，首个开源、原生 1 比特大型语言模型 (LLM)，参数规模达 20 亿。该模型在包含 4 万亿个 tokens 的语料库上进行训练，并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明，BitNet b1.58 2B4T 的性能与同等规模的领先开源、全精度 LLM 相当，同时在计算效率方面具有显著优势，包括大幅减少内存占用、能源消耗和解码延迟。为了促进进一步研究和应用，模型权重已通过 Hugging Face 发布，并附带适用于 GPU 和 CPU 架构的开源推理实现。

🔥 推理权重: https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

🔥 训练权重 (bf16): https://huggingface.co/microsoft/bitnet-b1.58-2B-4T-bf16

🧰 推理代码: https://github.com/microsoft/bitnet

📄 技术报告即将发布。

通过 https://bitnet-demo.azurewebsites.net 试用，我们正在烹饪更大的模型🥳🥳

BitNet b1.58 2B4T 技术报告

摘要

评论