⏶36

UltraMemV2：内存网络扩展至 120B 参数，实现卓越的长上下文学习

08月26日发表

08月27日由 taesiri 提交

作者: Zihao Huang, Yu Bao, min Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao

摘要

尽管专家混合 (MoE) 模型通过仅激活参数子集来实现出色的效率，但它们在推理过程中会产生高昂的内存访问成本。内存层架构提供了一种极少的内存访问的吸引人的替代方案，但之前的尝试（如 UltraMem）仅能与 2 个专家 MoE 模型相媲美，而与最先进的 8 个专家配置相比则远远落后。我们提出了 UltraMemV2，这是一种重新设计的内存层架构，可以缩小这一性能差距。我们的方法引入了五项关键改进：将内存层集成到每个 Transformer 块中，使用单个线性投影简化值扩展，从 PEER 采用基于 FFN 的值处理，实现原则性的参数初始化，以及重新平衡内存到 FFN 的计算比例。通过广泛的评估，我们证明 UltraMemV2 在相同的计算和参数下实现了与 8 个专家 MoE 模型相当的性能，但内存访问量却大大降低。值得注意的是，UltraMemV2 在内存密集型任务上表现出卓越的性能，在长上下文记忆、多轮记忆和上下文学习方面的改进分别为 +1.6、+6.2 和 +7.9 个百分点。我们通过最多 25 亿个激活参数（总共 1200 亿参数）的模型进行了大规模验证，并确定激活密度对性能的影响大于稀疏参数总数。我们的工作使内存层架构能够与最先进的 MoE 模型在性能上相媲美，为高效稀疏计算提供了一个引人注目的替代方案。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

> 混合专家（MoE）模型通过只激活部分参数来达到显着的效率，但它们在推理过程中存在高内存访问成本。内存层架构提供了一种吸引人的替代方案，内存访问次数非常少，但之前的尝试，如 UltraMem，仅与 2 个专家 MoE 模型相匹配，与最先进的 8 个专家配置相比，差距甚远。我们提出了 UltraMemV2，一种重新设计的内存层架构，弥合了性能差距。我们的方法引入了五项关键改进：将内存层集成到每个 Transformer 块中，通过单一线性投影简化值扩展，采用 PEER 的基于 FFN 的值处理，实现原则性的参数初始化，以及重新平衡内存到 FFN 的计算比例。通过广泛的评估，我们证明 UltraMemV2 在相同的计算和参数下实现了与 8 个专家 MoE 模型相当的性能，但内存访问量却大大降低。值得注意的是，UltraMemV2 在内存密集型任务上表现出色，在长上下文记忆、多轮记忆和上下文学习方面分别提高了 +1.6、+6.2 和 +7.9 个点。我们已将我们的方法扩展到高达 2.5B 激活参数（总参数 120B）的模型，并确定激活密度对性能的影响比稀疏参数总数的影响更大。我们的工作使内存层架构与最先进的 MoE 模型在性能上达到相当的水平，为高效稀疏计算提供了一种引人注目的替代方案。

UltraMemV2：内存网络扩展至 120B 参数，实现卓越的长上下文学习

摘要

评论