⏶2

成长型Transformer：在冻结基底上的模块化组合与逐层扩展

07月08日发表

07月11日由 Andrey 提交

作者: A. Bochkov

摘要

大型语言模型（LLM）的主流扩展范式涉及单一的、端到端的训练，这是一个资源密集且缺乏灵活性的过程。本文探索了一种替代性的、构建式模型开发方法，其基础是不可训练的、确定性的输入嵌入。在之前的研究[1]中，我们已证实使用源自Unicode字形视觉结构的冻结嵌入，可以在Transformer模型中涌现出高级语义推理能力。本文进一步证明，这种固定的表征基底可作为通用的“对接端口”，从而实现两种强大且高效的扩展范式：无缝模块化组合和渐进式逐层增长。首先，我们展示了在不同数据集（例如，俄语和中文文本）上训练的专家模型，可以在训练后无需任何架构修改，即可合并成一个单一、能力更强的专家混合模型（MoE）。这通过简单地平均它们的输出 logits 实现。由此产生的MoE模型在MMLU等推理基准测试中表现出立竿见影的性能提升，超越了其组成专家模型，且没有出现灾难性遗忘。其次，我们引入了一种逐层构建式训练方法，其中通过逐步堆叠和每次训练一个层来“增长”一个深层Transformer模型。该方法展示了稳定的收敛性，以及模型深度与复杂推理能力（例如SQuAD所需的推理能力）涌现之间的明确相关性。我们的研究结果表明，AI开发应从单一优化转向更具生物学或构建性的模型，其中复杂性是渐进构建的，模块可以自由组合。这为资源高效的扩展、持续学习以及构建强大AI系统的更民主化生态系统开辟了新途径。我们发布了所有代码和模型，以促进进一步的研究。

查看 arXiv 页面查看 PDF

Andrey

论文作者

论文提交者

LLM 如何理解“wRiTe”的含义，而构成它的基本单元——单个字符标记“w”、“R”、“i”——本身不含任何语义内容？这个简单的问题挑战了现代人工智能的根本基础。

我们的论文认为，高层含义并非包含在嵌入（embeddings）中，而是由Transformer架构构建的。我们通过用一个完全冻结的层来取代标准的、可训练的嵌入来证明这一点，该层源自Unicode字形的原始视觉结构。这些非语义向量在训练开始前就已经固定。

结果是范式转变式的：我们的模型不仅收敛，而且在推理基准测试中持续优于相同的架构。这揭示了一个核心开发原则：归纳（Induction）。我们没有强迫模型一次性猜出所有知识，而是赋予它简单、不可变的规则（字符的视觉形式），并让它在此基础上构建复杂性。

这就像是试图瞬间冻结整个湖泊，与让坚实的冰层一点点形成的区别。这就像是火车头通过首先克服单个车厢的惯性，从而带动整列火车前进的力量。

这一基础性发现解锁了一种强大的新方法。在本文中，我们展示了其实际价值：像乐高积木一样合并专家模型，并增量地“培养”强大的AI系统。

这项分为两部分的工作为人工智能的未来描绘了一个更模块化、更高效、更可扩展的蓝图。

Andrey

论文作者

论文提交者

如果我们一直在错误地构建大型语言模型（LLM）呢？与其像一次性投入大量资源锻造一个庞然大物，我们的研究表明人工智能是可以“生长”的。

基于我们的基础论文（arXiv:2507.04886 https://huggingface.co/papers/2507.04886），我们引入了“构建式学习”（Constructive Learning）。我们冻结的非语义嵌入（embeddings）充当通用基底，使我们能够：

像乐高一样合并专家模型：在训练后将俄语（RU）和中文（ZH）模型合并成一个更优的专家混合（MoE）模型。

逐层生长模型：我们像冰冻湖泊的冰层从薄薄的表层逐渐增厚到坚实的冰核一样，逐步构建深层知识。复杂的推理能力正是这样产生的。

将其想象成移动一列庞大的火车：你不是一次性推动整列火车；而是通过一次移动一节车厢来获得动力。这种范式不仅关乎效率；它关乎未来。当单一的巨型模型耗尽全球数据和数据中心资源时，这种方法仍能实现增长。

为什么还要继续走一条已知上限且碳足迹巨大的道路呢？让我们开始以构建式的方式来建造人工智能吧。

成长型Transformer：在冻结基底上的模块化组合与逐层扩展

摘要

评论