⏶8
MoTE: 内存高效大型多模态模型的三元专家混合
发表
由
Hongyu Wang 提交

作者:
Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

摘要
大型多模态专家混合 (MoE) 模型能够有效地扩展模型规模以提升性能,同时保持固定的活跃参数。然而,以往的工作在稀疏上循环过程中主要使用全精度专家。尽管它们在终端任务上表现出卓越的性能,但大量的专家会引入更高的内存占用,这对边缘设备的部署构成了重大挑战。在这项工作中,我们提出了 MoTE,这是一种可扩展且内存高效的方法,用于从密集检查点训练三元专家混合模型。我们建议在上循环过程中训练更多的低精度专家,而不是训练更少的高精度专家。具体而言,我们使用预训练的 FFN 作为共享专家,并训练参数为 {-1, 0, 1} 的三元路由专家。大量实验表明,我们的方法在模型规模方面具有良好的扩展趋势。MoTE 实现了与全精度基线 MoE-LLaVA 相当的性能,同时提供了更低的内存占用。此外,我们的方法与训练后量化方法兼容,并且当内存限制进一步降低时,这种优势会进一步放大。在专家内存占用同为 3.4GB 并结合训练后量化的情况下,MoTE 在终端任务上的平均准确率比 MoE-LLaVA 高出 4.3%,这表明了其在内存受限设备上的有效性和潜力。
大规模多模态专家混合模型(MoEs)有效地扩展了模型规模以提升性能,同时保持了固定的活跃参数。然而,以往的工作主要在稀疏上采样过程中使用全精度专家。尽管它们在最终任务上表现出卓越的性能,但大量的专家会带来更高的内存占用,这给在边缘设备上的部署带来了重大挑战。在这项工作中,我们提出了 MoTE,一种可扩展且内存高效的方法,用于从密集检查点训练三元专家混合模型。我们没有训练更少的高精度专家,而是提出在上采样过程中训练更多的低精度专家。具体来说,我们使用预训练的 FFN 作为共享专家,并训练参数为 {-1, 0, 1} 的三元路由专家。大量实验表明,我们的方法在模型规模上具有良好的扩展趋势。MoTE 实现了与全精度基线 MoE-LLaVA 相当的性能,同时提供了更低的内存占用。此外,我们的方法与训练后量化方法兼容,并且当内存限制进一步降低时,其优势会进一步放大。在专家内存占用同为 3.4GB 并结合训练后量化的情况下,MoTE 在最终任务上的平均准确率比 MoE-LLaVA 高出 4.3%,这证明了其在内存受限设备上的有效性和潜力。