⏶27
超越记忆:通过循环、记忆和测试时间计算扩展推理深度
发表
由
MIKHAIL BURTSEV 提交
作者:
Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov,
Bilal Elbouardi,
Besher Hassan,
Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov,
Mikhail Burtsev


摘要
推理是大型语言模型的核心能力,然而理解它们如何学习和执行多步推理仍然是一个悬而未决的问题。在本研究中,我们探索了不同的架构和训练方法如何在一个细胞自动机框架内影响模型的**多步推理能力**。通过在具有随机初始条件的随机布尔函数生成的**状态序列**上进行训练,以排除记忆,我们证明了大多数神经网络架构都能学会抽象底层规则。虽然模型在**下一状态预测**方面取得了高精度,但如果需要**多步推理**,它们的性能会急剧下降。我们证实,增加模型**深度**对于顺序计算至关重要。我们证明,通过**递归、记忆和测试时间计算**扩展有效模型深度可以**大幅增强推理能力**。

评论
论文作者
论文提交者