超越词元嵌入的涌现语义:带有冻结视觉Unicode表示的Transformer语言模型

发表
AndreyAndrey 提交
作者: AndreyA. Bochkov

摘要

理解大型语言模型(LLM)中语义表征的定位对于可解释性和架构创新至关重要。主流范式认为,可训练的输入嵌入是基础性的“意义向量”。本文对此观点提出了挑战。我们构建的Transformer模型中,嵌入层完全冻结,其向量并非源自数据,而是源自Unicode字形的视觉结构。这些非语义的、预计算的视觉嵌入在整个训练过程中是固定的。我们的方法兼容任何分词器,包括我们为确保文本的普遍覆盖而引入的新颖的以Unicode为中心的分词器。尽管缺乏可训练的、语义初始化的嵌入,我们的模型仍能收敛、生成连贯的文本,并且关键在于,在MMLU推理基准测试中,其性能超越了采用可训练嵌入但架构相同的模型。我们将此归因于传统模型中的“表征干扰”,即嵌入层同时承担了学习结构和语义特征的负担。我们的结果表明,高级语义并非输入嵌入所固有的,而是Transformer组合式架构和数据规模的涌现属性。这重新定义了嵌入的作用,将其从意义容器转变为结构基元。我们发布了所有代码和模型,以促进进一步的研究。
查看 arXiv 页面查看 PDF

评论

AndreyAndrey
论文作者
论文提交者

LLM 如何理解“wRiTe”的含义,而构成它的基本单元——单个字符标记“w”、“R”、“i”——本身不含任何语义内容?这个简单的问题挑战了现代人工智能的根本基础。

我们的论文认为,高层含义并非包含在嵌入(embeddings)中,而是由Transformer架构构建的。我们通过用一个完全冻结的层来取代标准的、可训练的嵌入来证明这一点,该层源自Unicode字形的原始视觉结构。这些非语义向量在训练开始前就已经固定。

结果是范式转变式的:我们的模型不仅收敛,而且在推理基准测试中持续优于相同的架构。这揭示了一个核心开发原则:归纳(Induction)。我们没有强迫模型一次性猜出所有知识,而是赋予它简单、不可变的规则(字符的视觉形式),并让它在此基础上构建复杂性。

这就像是试图瞬间冻结整个湖泊,与让坚实的冰层一点点形成的区别。这就像是火车头通过首先克服单个车厢的惯性,从而带动整列火车前进的力量。

这一基础性发现解锁了一种强大的新方法。在我们的后续论文中 (arXiv:2507.07129 https://huggingface.co/papers/2507.07129),我们展示了其实际价值:像乐高积木一样合并专家模型,并增量地“培养”强大的AI系统。

这项分为两部分的工作为人工智能的未来描绘了一个更模块化、更高效、更可扩展的蓝图。