使用语言模型学习自适应并行推理

发表
Long(Tony) LianLong(Tony) Lian 提交
作者: Jiayi PanJiayi Pan, Xiuyu LiXiuyu Li, Long(Tony) LianLong Lian, Charlie SnellCharlie Snell, Yifei ZhouYifei Zhou, Adam YalaAdam Yala, Trevor DarrellTrevor Darrell, Kurt KeutzerKurt Keutzer, Alane SuhrAlane Suhr

摘要

扩展推理时计算能力显著提高了语言模型的推理能力。然而,现有方法存在显著局限性:串行思维链方法产生的输出过长,导致延迟增加和上下文窗口耗尽;而自洽性等并行方法则协调不足,导致冗余计算和性能提升有限。为了解决这些不足,我们提出了自适应并行推理(APR),这是一种新颖的推理框架,使语言模型能够端到端地协调串行和并行计算。APR 通过启用使用 spawn() 和 join() 操作的自适应多线程推理来泛化现有推理方法。一个关键创新是我们的端到端强化学习策略,它优化父线程和子线程的推理过程,以提高任务成功率,而无需预定义推理结构。在 Countdown 推理任务上的实验证明了 APR 的显著优势:(1)在相同上下文窗口内性能更高(4k 上下文时为 83.4% vs. 60.0%);(2)计算量增加时可扩展性更优(总令牌数为 20k 时为 80.1% vs. 66.6%);(3)在同等延迟下精度更高(约 5,000ms 时为 75.2% vs. 57.3%)。APR 代表了通过自适应分配计算能力使语言模型自主优化其推理过程迈出的重要一步。
查看 arXiv 页面查看 PDF

评论

Long(Tony) LianLong(Tony) Lian
论文作者
论文提交者

我们提出自适应并行推理 (APR),这是一个新颖的框架,它使语言模型能够学会编排串行和并行计算。APR 通过端到端监督训练和强化学习训练语言模型使用 spawn() 和 join() 操作,使模型能够动态地编排自己的计算工作流。APR 有效地分配计算资源,降低延迟,克服上下文窗口限制,并在复杂推理任务上实现了最先进的性能(例如,在 Countdown 任务的 4K 上下文下准确率达到 83.4%,而对比为 60.0%)。image.png