通过递归潜在空间推理解锁 Transformer 中的分布外泛化

发表
Awni AltabaaAwni Altabaa 提交
作者: Awni AltabaaAwni Altabaa, Siyu Chen, John Lafferty, Zhuoran YangZhuoran Yang

摘要

AI 生成总结
Transformer 网络通过四种架构机制得到增强,以提高分布外泛化能力和算法推理能力。
系统化的、组合性的泛化能力超出训练分布仍然是机器学习的一个核心挑战——也是现代语言模型新兴推理能力的瓶颈。这项工作利用GSM8K风格的计算图上的模算术任务作为试验台,研究了Transformer网络中的分布外(OOD)泛化能力。我们引入并探索了一组四种旨在增强OOD泛化的架构机制:(i)输入自适应递归;(ii)算法监督;(iii)通过离散瓶颈实现的锚定潜在表示;和(iv)显式的误差校正机制。总而言之,这些机制为Transformer网络中的原生和可扩展的潜在空间推理提供了一种架构方法,具有强大的算法泛化能力。我们通过详细的机制可解释性分析来补充这些实证结果,该分析揭示了这些机制如何产生强大的OOD泛化能力。
查看 arXiv 页面查看 PDF

评论

Awni AltabaaAwni Altabaa
论文作者
论文提交者

这项工作使用 GSM8K 风格的任务作为试验台,研究 Transformer 网络中的分布外(OOD)和算法泛化能力。我们引入并探索了一组四个架构机制,旨在增强 OOD 泛化能力:(i) 输入自适应递归;(ii) 算法监督;(iii) 通过离散瓶颈锚定的潜在表示;以及 (iv) 显式的错误纠正机制。总的来说,这些机制为 Transformer 网络提供了原生的、可扩展的潜在空间推理的架构方法,并具有强大的算法泛化能力。我们通过详细的机制可解释性分析来补充这些实证结果,揭示了这些机制如何产生鲁棒的 OOD 泛化能力。