⏶36
UltraMemV2:内存网络扩展至 120B 参数,实现卓越的长上下文学习
发表
由
taesiri 提交

作者:
Zihao Huang, Yu Bao,
Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu,
Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
摘要
尽管专家混合 (MoE) 模型通过仅激活参数子集来实现出色的效率,但它们在推理过程中会产生高昂的内存访问成本。内存层架构提供了一种极少的内存访问的吸引人的替代方案,但之前的尝试(如 UltraMem)仅能与 2 个专家 MoE 模型相媲美,而与最先进的 8 个专家配置相比则远远落后。我们提出了 UltraMemV2,这是一种重新设计的内存层架构,可以缩小这一性能差距。我们的方法引入了五项关键改进:将内存层集成到每个 Transformer 块中,使用单个线性投影简化值扩展,从 PEER 采用基于 FFN 的值处理,实现原则性的参数初始化,以及重新平衡内存到 FFN 的计算比例。通过广泛的评估,我们证明 UltraMemV2 在相同的计算和参数下实现了与 8 个专家 MoE 模型相当的性能,但内存访问量却大大降低。值得注意的是,UltraMemV2 在内存密集型任务上表现出卓越的性能,在长上下文记忆、多轮记忆和上下文学习方面的改进分别为 +1.6、+6.2 和 +7.9 个百分点。我们通过最多 25 亿个激活参数(总共 1200 亿参数)的模型进行了大规模验证,并确定激活密度对性能的影响大于稀疏参数总数。我们的工作使内存层架构能够与最先进的 MoE 模型在性能上相媲美,为高效稀疏计算提供了一个引人注目的替代方案。
> 混合专家(MoE)模型通过只激活部分参数来达到显着的效率,但它们在推理过程中存在高内存访问成本。内存层架构提供了一种吸引人的替代方案,内存访问次数非常少,但之前的尝试,如 UltraMem,仅与 2 个专家 MoE 模型相匹配,与最先进的 8 个专家配置相比,差距甚远。我们提出了 UltraMemV2,一种重新设计的内存层架构,弥合了性能差距。我们的方法引入了五项关键改进:将内存层集成到每个 Transformer 块中,通过单一线性投影简化值扩展,采用 PEER 的基于 FFN 的值处理,实现原则性的参数初始化,以及重新平衡内存到 FFN 的计算比例。通过广泛的评估,我们证明 UltraMemV2 在相同的计算和参数下实现了与 8 个专家 MoE 模型相当的性能,但内存访问量却大大降低。值得注意的是,UltraMemV2 在内存密集型任务上表现出色,在长上下文记忆、多轮记忆和上下文学习方面分别提高了 +1.6、+6.2 和 +7.9 个点。我们已将我们的方法扩展到高达 2.5B 激活参数(总参数 120B)的模型,并确定激活密度对性能的影响比稀疏参数总数的影响更大。我们的工作使内存层架构与最先进的 MoE 模型在性能上达到相当的水平,为高效稀疏计算提供了一种引人注目的替代方案。