ArXiv-to-Model:科学领域语言模型训练的实践研究

发表
Anuj GuptaAnuj Gupta 提交
作者: Anuj GuptaAnuj Gupta

摘要

AI 生成总结
从原始 arXiv LaTeX 源码训练一个 13.6 亿参数的科学语言模型,展示了在计算资源有限的情况下,预处理决策、分词和基础设施限制对模型开发的影响。
虽然前沿大型语言模型展示了强大的推理和数学能力,但从原始资源训练领域专业化科学语言模型的实际过程仍缺乏记录。在这项工作中,我们展示了一个详细的案例研究,直接从涵盖数学、计算机科学和理论物理的原始 arXiv LaTeX 源码中训练一个 13.6 亿参数的科学语言模型。我们描述了一个端到端流水线,涵盖元数据过滤、存档验证、LaTeX 提取、文本归一化、领域感知标记化以及在受限计算资源(2 个 A100 GPU)下的稠密 Transformer 训练。通过 24 次实验运行,我们分析了训练稳定性、扩展行为、数据产出损失和基础设施瓶颈。我们的发现强调了预处理决策如何显著影响可用标记量,标记化如何影响符号稳定性,以及存储和 I/O 约束如何能成为与计算并列的限制因素。我们进一步分析了收敛动力学,并展示了在数据丰富状态下(520 亿预训练标记)的稳定训练行为。这项工作并非提出一种新架构,而是提供了一个基于工程、透明的从头开始训练小型科学语言模型的说明。我们希望这些见解能为在适度计算预算下寻求构建领域专业化模型的研究人员提供支持。
查看 arXiv 页面查看 PDF

评论

Anuj GuptaAnuj Gupta
论文作者
论文提交者

💻 Github: https://github.com/kitefishai/KiteFish-A1-1.5B-Math