⏶5
SeqPE:带有序列位置编码的 Transformer
发表
由
Huayang 提交
作者: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
摘要
由于 Transformer 中的自注意力层在设计上是置换不变的,因此必须明确引入位置编码以实现空间理解。然而,传统可学习位置嵌入 (PE) 中使用的固定大小查找表限制了其超出预训练序列长度的泛化能力。ALiBi 和 RoPE 等专家设计的方法缓解了这一限制,但需要大量修改才能适应新的模态,这凸显了适应性和可扩展性方面的根本挑战。在这项工作中,我们提出了 SeqPE,一个统一且完全可学习的位置编码框架,它将每个 n 维位置索引表示为一个符号序列,并采用轻量级序列位置编码器以端到端的方式学习其嵌入。为了规范 SeqPE 的嵌入空间,我们引入了两个互补的目标:一个对比目标,将嵌入距离与预定义的位置距离函数对齐;以及一个知识蒸馏损失,将分布外的位置嵌入锚定到分布内的教师表示,从而进一步增强泛化性能。跨语言建模、长文本问答和 2D 图像分类的实验表明,SeqPE 不仅在困惑度、精确匹配 (EM) 和准确性方面——尤其是在上下文长度泛化下——超越了强大的基线,而且无需手动重新设计架构即可实现对多维输入的无缝泛化。我们在 https://github.com/ghrua/seqpe 发布了代码、数据和检查点。
请查阅我们的论文,了解位置编码方法的另一种设计。