覆盖原理:理解组合泛化的框架

发表
ChangChang 提交
作者: ChangHoyeon Chang, Jinho Park, Hanseul ChoHanseul Cho, Sohee YangSohee Yang, Miyoung KoMiyoung Ko, Hyeonbin HwangHyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin AhnYoubin Ahn, Minjoon SeoMinjoon Seo

摘要

大型语言模型擅长模式匹配,但在系统性组合泛化方面往往表现不足。我们提出了覆盖原则:一个以数据为中心的框架,表明主要依靠模式匹配进行组合任务的模型,在泛化超出那些在相同上下文中产生相同结果的片段时,并不可靠。我们证明这个框架对 Transformer 的泛化能力具有很强的预测能力。首先,我们推导出并经验证实,实现两跳泛化所需的训练数据量随 token 集大小呈至少二次方增长,并且训练数据效率并未随参数规模扩大 20 倍而提高。其次,对于具有路径歧义(其中一个变量通过多个计算路径影响输出)的组合任务,我们表明 Transformer 学习了依赖于上下文的状态表示,这损害了性能和互操作性。第三,思维链 (Chain-of-Thought) 监督提高了多跳任务的训练数据效率,但仍然难以处理路径歧义。最后,我们概述了一个基于机制的分类法,它区分了神经网络泛化的三种方式:基于结构(受覆盖限制)、基于属性(利用代数不变性)和共享操作符(通过函数复用)。这种概念视角将我们的结果置于语境中,并强调了需要新的架构理念来实现真正的系统性组合性。总的来说,覆盖原则为理解组合推理提供了一个统一的视角,并强调了需要基础性的架构或训练创新来实现真正的系统性组合性。
查看 arXiv 页面查看 PDF

评论

ChangChang
论文作者
论文提交者

这项工作提出了一个以数据为中心的框架,表明主要依靠模式匹配进行组合任务的模型无法可靠地泛化到超出在相同上下文中产生相同结果的片段之外。