⏶27
隐式流Transformer
发表
由
Feng-Ting Liao 提交
作者:
Yen-Chen Wu,
Feng-Ting Liao,
Meng-Hsi Chen, Pei-Chen Ho, Farhang Nabiei,
Da-shan Shiu

摘要
Transformers,作为大型语言模型(LLM)的标准实现,通常由数十到数百个离散层组成。虽然增加层数可以带来更好的性能,但这种方法已被质疑效率低下,特别是考虑到扩散模型和基于流的模型在图像生成中展现出的连续层的优越性。我们提出了潜在流 Transformer (LFT),它用一个通过流匹配训练的单一学习到的传输算子替换了一块层,在显著压缩的同时保持与原始架构的兼容性。此外,我们通过引入流漫步(Flow Walking, FW)算法,解决了现有基于流的方法在保持耦合方面的限制。在 Pythia-410M 模型上,使用流匹配训练的 LFT 压缩了 24 层中的 6 层,并且性能优于直接跳过 2 层(LM logits 的 KL 散度为 0.407 vs 0.529),证明了这种设计的可行性。当使用 FW 训练时,LFT 进一步将 12 层蒸馏为一层,同时将 KL 散度降低到 0.736,超过了跳过 3 层的结果(0.932),显著缩小了自回归范式和基于流的生成范式之间的差距。
我们旨在连接自回归和基于流的生成范式。我们提出了潜在流Transformer (LFT),它用单个通过流匹配训练的学得传输算子替换了一组层,在提供显著压缩的同时保持了与原始架构的兼容性。