成长型Transformer:在冻结基底上的模块化组合与逐层扩展

发表
AndreyAndrey 提交
作者: AndreyA. Bochkov

摘要

大型语言模型(LLM)的主流扩展范式涉及单一的、端到端的训练,这是一个资源密集且缺乏灵活性的过程。本文探索了一种替代性的、构建式模型开发方法,其基础是不可训练的、确定性的输入嵌入。在之前的研究[1]中,我们已证实使用源自Unicode字形视觉结构的冻结嵌入,可以在Transformer模型中涌现出高级语义推理能力。本文进一步证明,这种固定的表征基底可作为通用的“对接端口”,从而实现两种强大且高效的扩展范式:无缝模块化组合和渐进式逐层增长。 首先,我们展示了在不同数据集(例如,俄语和中文文本)上训练的专家模型,可以在训练后无需任何架构修改,即可合并成一个单一、能力更强的专家混合模型(MoE)。这通过简单地平均它们的输出 logits 实现。由此产生的MoE模型在MMLU等推理基准测试中表现出立竿见影的性能提升,超越了其组成专家模型,且没有出现灾难性遗忘。其次,我们引入了一种逐层构建式训练方法,其中通过逐步堆叠和每次训练一个层来“增长”一个深层Transformer模型。该方法展示了稳定的收敛性,以及模型深度与复杂推理能力(例如SQuAD所需的推理能力)涌现之间的明确相关性。 我们的研究结果表明,AI开发应从单一优化转向更具生物学或构建性的模型,其中复杂性是渐进构建的,模块可以自由组合。这为资源高效的扩展、持续学习以及构建强大AI系统的更民主化生态系统开辟了新途径。我们发布了所有代码和模型,以促进进一步的研究。
查看 arXiv 页面查看 PDF

评论

AndreyAndrey
论文作者
论文提交者

LLM 如何理解“wRiTe”的含义,而构成它的基本单元——单个字符标记“w”、“R”、“i”——本身不含任何语义内容?这个简单的问题挑战了现代人工智能的根本基础。

我们的论文认为,高层含义并非包含在嵌入(embeddings)中,而是由Transformer架构构建的。我们通过用一个完全冻结的层来取代标准的、可训练的嵌入来证明这一点,该层源自Unicode字形的原始视觉结构。这些非语义向量在训练开始前就已经固定。

结果是范式转变式的:我们的模型不仅收敛,而且在推理基准测试中持续优于相同的架构。这揭示了一个核心开发原则:归纳(Induction)。我们没有强迫模型一次性猜出所有知识,而是赋予它简单、不可变的规则(字符的视觉形式),并让它在此基础上构建复杂性。

这就像是试图瞬间冻结整个湖泊,与让坚实的冰层一点点形成的区别。这就像是火车头通过首先克服单个车厢的惯性,从而带动整列火车前进的力量。

这一基础性发现解锁了一种强大的新方法。在本文中,我们展示了其实际价值:像乐高积木一样合并专家模型,并增量地“培养”强大的AI系统。

这项分为两部分的工作为人工智能的未来描绘了一个更模块化、更高效、更可扩展的蓝图。

AndreyAndrey
论文作者
论文提交者

如果我们一直在错误地构建大型语言模型(LLM)呢?与其像一次性投入大量资源锻造一个庞然大物,我们的研究表明人工智能是可以“生长”的。

基于我们的基础论文(arXiv:2507.04886 https://huggingface.co/papers/2507.04886),我们引入了“构建式学习”(Constructive Learning)。我们冻结的非语义嵌入(embeddings)充当通用基底,使我们能够:

像乐高一样合并专家模型:在训练后将俄语(RU)和中文(ZH)模型合并成一个更优的专家混合(MoE)模型。

逐层生长模型:我们像冰冻湖泊的冰层从薄薄的表层逐渐增厚到坚实的冰核一样,逐步构建深层知识。复杂的推理能力正是这样产生的。

将其想象成移动一列庞大的火车:你不是一次性推动整列火车;而是通过一次移动一节车厢来获得动力。这种范式不仅关乎效率;它关乎未来。当单一的巨型模型耗尽全球数据和数据中心资源时,这种方法仍能实现增长。

为什么还要继续走一条已知上限且碳足迹巨大的道路呢?让我们开始以构建式的方式来建造人工智能吧。