⏶23
反应式 Transformer (RxT) -- 用于事件驱动的反应式语言的状态实时处理
发表
由
Adam Filipek 提交
作者:
Adam Filipek
摘要
AI 生成总结
反应式 Transformer (RxT) 使用事件驱动范例和固定大小的短期记忆 (STM) 系统,解决了对话式 AI 中无状态 Transformer 的局限性,实现了线性扩展和低延迟。Transformer 架构已成为大型语言模型 (LLMs) 的事实标准,在语言理解和生成方面展现出卓越的能力。然而,其在对话式人工智能中的应用受到其无状态特性和相对于序列长度 L 的二次计算复杂度 (O(L^2)) 的根本限制。当前模型通过在每个回合中重新处理不断扩展的对话历史来模拟记忆,这导致在长对话中成本和延迟过高。本文介绍了 Reactive Transformer (RxT),这是一种新颖的架构,旨在通过从数据驱动范式转向事件驱动范式来克服这些限制。RxT 将每个对话回合视为一个离散的实时事件,在一个集成的、固定大小的短期记忆 (STM) 系统中维护上下文。该架构具有一个独特的运行周期,其中生成器-解码器根据当前查询和之前的记忆状态生成响应,之后内存编码器和一个专用的内存注意力网络异步更新 STM,以表示完整的交互。这种设计从根本上改变了缩放动力学,将对话的用户正面成本从二次方 (O(N^2 cdot T)) 降低到线性 (O(N cdot T)),相对于交互次数 N。通过将响应生成与内存更新解耦,RxT 实现了低延迟,从而能够实现真正实时的、有状态的、经济上可行的长对话。我们通过一系列合成数据上的概念验证实验验证了我们的架构,与同等规模的基线无状态模型相比,展示了优越的性能和恒定的推理延迟。


该论文介绍了用于状态化实时处理的 Reactive Transformer (RxT) 架构,在小规模实验中,其性能优于同等规模的无状态的 decoder-only 模型。架构优势:
- 原生为对话进行训练
- 对话成本线性缩放,而非 LLM 的二次方缩放
- 由于异步内存更新,没有提示阶段延迟
- 每个消息的计算成本和内存使用量恒定
- 原生编码的上下文在内存层中
- 多轮对话质量更好