⏶8

MoTE: 内存高效大型多模态模型的三元专家混合

06月17日发表

06月19日由 Hongyu Wang 提交

作者: Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

摘要

大型多模态专家混合 (MoE) 模型能够有效地扩展模型规模以提升性能，同时保持固定的活跃参数。然而，以往的工作在稀疏上循环过程中主要使用全精度专家。尽管它们在终端任务上表现出卓越的性能，但大量的专家会引入更高的内存占用，这对边缘设备的部署构成了重大挑战。在这项工作中，我们提出了 MoTE，这是一种可扩展且内存高效的方法，用于从密集检查点训练三元专家混合模型。我们建议在上循环过程中训练更多的低精度专家，而不是训练更少的高精度专家。具体而言，我们使用预训练的 FFN 作为共享专家，并训练参数为 {-1, 0, 1} 的三元路由专家。大量实验表明，我们的方法在模型规模方面具有良好的扩展趋势。MoTE 实现了与全精度基线 MoE-LLaVA 相当的性能，同时提供了更低的内存占用。此外，我们的方法与训练后量化方法兼容，并且当内存限制进一步降低时，这种优势会进一步放大。在专家内存占用同为 3.4GB 并结合训练后量化的情况下，MoTE 在终端任务上的平均准确率比 MoE-LLaVA 高出 4.3%，这表明了其在内存受限设备上的有效性和潜力。

查看 arXiv 页面查看 PDF

Hongyu Wang

论文作者

论文提交者

大规模多模态专家混合模型（MoEs）有效地扩展了模型规模以提升性能，同时保持了固定的活跃参数。然而，以往的工作主要在稀疏上采样过程中使用全精度专家。尽管它们在最终任务上表现出卓越的性能，但大量的专家会带来更高的内存占用，这给在边缘设备上的部署带来了重大挑战。在这项工作中，我们提出了 MoTE，一种可扩展且内存高效的方法，用于从密集检查点训练三元专家混合模型。我们没有训练更少的高精度专家，而是提出在上采样过程中训练更多的低精度专家。具体来说，我们使用预训练的 FFN 作为共享专家，并训练参数为 {-1, 0, 1} 的三元路由专家。大量实验表明，我们的方法在模型规模上具有良好的扩展趋势。MoTE 实现了与全精度基线 MoE-LLaVA 相当的性能，同时提供了更低的内存占用。此外，我们的方法与训练后量化方法兼容，并且当内存限制进一步降低时，其优势会进一步放大。在专家内存占用同为 3.4GB 并结合训练后量化的情况下，MoTE 在最终任务上的平均准确率比 MoE-LLaVA 高出 4.3%，这证明了其在内存受限设备上的有效性和潜力。

MoTE: 内存高效大型多模态模型的三元专家混合

摘要

评论