⏶469
龙之幼崽:Transformer与大脑模型之间的缺失环节
发表
由
Jan Chorowski 提交
作者: Adrian Kosowski,
Przemysław Uznański,
Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz

摘要
AI 生成总结
BDH 是一种受生物启发的语言模型,它结合了无标度网络架构和赫布学习,以实现类似 Transformer 的性能,同时保持了可解释性。计算系统与大脑之间的关系一直是约翰·冯·诺依曼和艾伦·图灵等先驱理论家们的研究动力。大脑等均匀、无标度的生物网络拥有强大的特性,包括随时间泛化,这是机器学习在通往通用推理模型道路上的主要障碍。
我们介绍“龙之幼”(BDH),这是一种基于局部交互神经元粒子无标度生物启发网络的新型大型语言模型架构。BDH 融合了强大的理论基础和固有的可解释性,同时又不牺牲类 Transformer 的性能。
BDH 是一种实用、高性能的先进基于注意力机制的状态空间序列学习架构。除了作为图模型外,BDH 还提供了一种 GPU 友好的实现方式。它表现出类 Transformer 的缩放定律:在相同的参数数量(10M 到 1B)和相同的训练数据下,BDH 在语言和翻译任务上的性能实测效果可与 GPT2 相媲美。
BDH 可以表示为一个大脑模型。BDH 在推理过程中,其工作记忆完全依赖于具有赫布学习的突触可塑性,使用脉冲神经元。我们通过实验证实,当 BDH 在处理语言输入时听到或推理特定概念时,特定的、独立的突触连接会得到加强。BDH 的神经元交互网络是一个具有高度模块化和重尾度数分布的图。BDH 模型在生物学上是合理的,解释了人类神经元可能用于实现语言的一种机制。
BDH 的设计旨在提高可解释性。BDH 的激活向量是稀疏且正的。我们在语言任务上展示了 BDH 的单义性。状态的可解释性,超越了神经元和模型参数的可解释性,是 BDH 架构的固有特征。
大脑是由具有非常特定的连接模式的神经元组成的网络。Transformer 使用密集矩阵乘法,这隐藏了这种网络结构。当一个 LLM 被设计成一个类脑的、无标度的信息传输网络时,会发生什么?