多元宇宙:您的语言模型秘密决定如何并行化和合并生成

发表
Xinyu YangXinyu Yang 提交
作者: Xinyu Yang, Yuwei An, Hongyi Liu, Tianqi Chen, Beidi Chen

摘要

自回归大型语言模型(AR-LLM)在顺序生成中常表现出隐式并行性。受此启发,我们引入了Multiverse,这是一种新的生成模型,能够实现原生并行生成。Multiverse内化了MapReduce范式,通过三个阶段自动生成:(i)Map阶段用于自适应任务分解,(ii)Process阶段用于并行子任务执行,以及(iii)Reduce阶段用于无损结果合成。接下来,我们构建了一个真实世界的Multiverse推理模型,其数据、算法和系统经过协同设计,从而实现从前沿AR-LLM的快速无缝迁移。我们从顺序推理链开始,通过使用自动化LLM辅助管道将其转换为结构化训练数据,从而创建了Multiverse 1K,避免了昂贵的人工标注。在算法层面,我们设计了Multiverse Attention,以分离并行推理步骤,同时保持与因果注意力(causal attention)的兼容性,从而实现高效训练。在系统层面,我们实现了Multiverse Engine以支持并行推理。它具有一个专用调度器,可由模型直接触发,在顺序生成和并行生成之间动态切换。经过1K个示例的3小时微调后,我们的Multiverse-32B是唯一一个开源的非AR模型,其性能与同等规模的领先AR-LLM持平,AIME24和AIME25分数分别为54%和46%。此外,我们的预算控制实验表明,Multiverse-32B展现出卓越的扩展性,在相同上下文长度下,平均比AR-LLM高出1.87%。这种扩展性进一步带来了实际的效率提升,在不同批次大小下实现了高达2倍的加速。我们已开源了整个Multiverse生态系统,包括数据、模型权重、引擎、支持工具,以及完整的数据整理提示和详细的训练与评估方案。
查看 arXiv 页面查看 PDF

评论