⏶2
流等变循环神经网络
发表
由
Md Ashiqur Rahman 提交

作者: T. Anderson Keller
摘要
数据以连续流的形式抵达我们的感官,从一个瞬间平滑地变换到下一个瞬间。这些平滑的变换可以被看作是我们所处环境的连续对称性,它们定义了不同时间点上刺激之间的等价关系。在机器学习中,能够遵循其数据对称性的神经网络架构被称为等变网络,并且在泛化能力和样本效率方面具有可证明的优势。然而,迄今为止,等变性仅被应用于静态变换和前馈网络,这限制了其在序列模型(如循环神经网络 RNN)及相应的时间参数化序列变换中的应用。在这项工作中,我们将等变网络理论扩展到“流”(flows)这一领域——即捕捉随时间发生的自然变换(如视觉运动)的单参数李子群。我们首先证明了标准 RNN 通常不具备流等变性:对于移动的刺激,其隐藏状态无法以一种几何结构化的方式进行变换。接着,我们展示了如何引入流等变性,并证明这些模型在训练速度、长度泛化和速度泛化方面,以及在下一步预测和序列分类任务上,都显著优于其非等变的对应模型。我们将这项工作视为构建能够遵循支配我们周围世界的时间参数化对称性的序列模型的第一步。
流等变模型——用于序列建模的时间依赖变换下的等变性。