⏶469

龙之幼崽：Transformer与大脑模型之间的缺失环节

09月30日发表

10月01日由 Jan Chorowski 提交

作者: Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz

摘要

AI 生成总结

BDH 是一种受生物启发的语言模型，它结合了无标度网络架构和赫布学习，以实现类似 Transformer 的性能，同时保持了可解释性。

计算系统与大脑之间的关系一直是约翰·冯·诺依曼和艾伦·图灵等先驱理论家们的研究动力。大脑等均匀、无标度的生物网络拥有强大的特性，包括随时间泛化，这是机器学习在通往通用推理模型道路上的主要障碍。我们介绍“龙之幼”（BDH），这是一种基于局部交互神经元粒子无标度生物启发网络的新型大型语言模型架构。BDH 融合了强大的理论基础和固有的可解释性，同时又不牺牲类 Transformer 的性能。 BDH 是一种实用、高性能的先进基于注意力机制的状态空间序列学习架构。除了作为图模型外，BDH 还提供了一种 GPU 友好的实现方式。它表现出类 Transformer 的缩放定律：在相同的参数数量（10M 到 1B）和相同的训练数据下，BDH 在语言和翻译任务上的性能实测效果可与 GPT2 相媲美。 BDH 可以表示为一个大脑模型。BDH 在推理过程中，其工作记忆完全依赖于具有赫布学习的突触可塑性，使用脉冲神经元。我们通过实验证实，当 BDH 在处理语言输入时听到或推理特定概念时，特定的、独立的突触连接会得到加强。BDH 的神经元交互网络是一个具有高度模块化和重尾度数分布的图。BDH 模型在生物学上是合理的，解释了人类神经元可能用于实现语言的一种机制。 BDH 的设计旨在提高可解释性。BDH 的激活向量是稀疏且正的。我们在语言任务上展示了 BDH 的单义性。状态的可解释性，超越了神经元和模型参数的可解释性，是 BDH 架构的固有特征。

查看 arXiv 页面查看 PDF

Jan Chorowski

论文作者

论文提交者

大脑是由具有非常特定的连接模式的神经元组成的网络。Transformer 使用密集矩阵乘法，这隐藏了这种网络结构。当一个 LLM 被设计成一个类脑的、无标度的信息传输网络时，会发生什么？

Anshika

“很高兴能在 Pathway 黑客马拉松中探索 BDH 架构！”

Ilyas Booneehee

我们可以使用这种架构训练 tts 模型吗？我不是说那些花哨的新基于 LLM 的模型，而是像 Piper 这样的小型模型。

Kartik Garg

太棒了！！

xz259

所以你们去掉了 softmax，并在注意力之后添加了一个 ReLU 门控？这有什么新意吗？这些修改甚至不好。它们会降低标准注意力的性能。

Adrian Kosowski

@xz259 大约有 5 个主要区别，不应该单独尝试——否则它们确实不起作用（并且单独来说不可能起作用，正如论文的理论部分所述）。另请参阅下方评论中的表格。

Adrian Kosowski

来自作者：对于那些正在寻找 Transformer 的综合（不那么严谨）比较的读者，这里有一个区别的总结表。

bdh_versus_transformer

Tyler Poore

引人入胜。

我将在下周仔细研究这一点。

高维度和连通性确实是重要的联系。

Krzysztof Pika

我探索了该模型：https://github.com/takzen/BDH-Official

attention_layer_0

sparsity_analysis_final

network_weights_bdh_shakespeare_final

William Gao

我可能错过了，但似乎你们在测试 BDH 时只使用了字母级别的标记化。你们使用单词级别的标记化进行了测试吗？

Krzysztof Pika

你说对了——对于整个实验，我们严格坚持使用字符级标记化。老实说，这是一个故意的选择。我们想让事情尽可能简单，以便真正隔离和测试 BDH 架构本身。通过输入原始字符，我们给了它最具挑战性的任务：它必须从零开始弄清楚一切，包括“单词”是什么。它仅从单个字母就学会了拼写、语法和风格，这对我们来说是架构正在做一些特别的事情的最有力的证明。用一个真正 BPE 分词器进行测试当然是下一步，我非常好奇它在那时的表现。再次感谢你的好问题！

Adrian Kosowski

@willgrobots（来自作者）模型通常对不同的分词器表现良好。如果您在此方面观察到与 Transformer 有任何差异，我们很想了解更多信息。

Krzysztof Pika

我刚刚设置了一个比较实验来测试这一点。我正在用完全相同的参数数量（约 2500 万）的标准化 Transformer 模型在相同的字符级数据集和相同的训练条件下进行训练。
我非常期待看到结果并比较学习曲线和最终性能。训练完成后，我一定会分享我的发现。再次感谢你们的辛勤工作和开放的讨论！