⏶61
野外Grokking:用于真实世界Transformer多跳推理的数据增强
发表
由
Felix Steinbauer 提交

作者:
Roman Abramov,
Felix Steinbauer, Gjergji Kasneci

摘要
Transformer 模型在众多自然语言处理 (NLP) 任务中取得了巨大成功,但在多步事实推理方面仍然存在明显的差距,尤其是在现实世界知识稀疏的情况下。最近在“突然领悟”(grokking) 方面的进展表明,神经网络一旦检测到潜在的逻辑模式,就可以从记忆转变为完美的泛化——然而,这些研究主要使用了小型、合成的任务。在本文中,我们首次将“突然领悟”扩展到现实世界的事实数据,并通过用精心设计的合成数据增强现有知识图谱来解决数据集稀疏性的挑战,从而将推断事实与原子事实的比率 phi_r 提高到超过“突然领悟”所需的阈值。令人惊讶的是,我们发现即使是事实不正确的合成数据,也能加强涌现的推理电路,而不是降低准确性,因为它迫使模型依赖关系结构而非记忆。在多跳推理基准上进行评估时,我们的方法在 2WikiMultiHopQA 上达到了 95-100% 的准确率,显著优于强大的基线方法,并与当前最先进的结果持平或超越。我们进一步深入分析了增加 phi_r 如何驱动 Transformer 内部泛化电路的形成。我们的发现表明,基于“突然领悟”的数据增强可以释放隐式的多跳推理能力,为大型语言模型中更鲁棒和可解释的事实推理打开大门。
评论

论文作者
论文提交者
我认为这绝对可能,但我们还没尝试过。我认为这可能需要更长时间,并且/或者需要更多推断的事实(即更高的phi_r比例),因为需要在层内形成的泛化电路更加复杂和深层。实际上,我们目前正在研究一种方法,旨在为更复杂(和更深层)的推理子电路实现grokking,以处理更非结构化 / 混乱的数据集。
关于代码:
训练数据并非唯一严重非结构化的东西😅
@monsetrum 如果你有时间,把代码整理一下放在网上会很好,因为看起来人们对此很感兴趣(如果我们在Papers With Code上,也可以放)。
嘿,我们让 grokking 在 transformer 和 真实世界数据 上取得了成果。
当然,有一些 注意事项,应用起来也不直接。但我们认为目前的结果实际上相当 有前景!想要了解更多 细节,请查看我们的论文。