⏶17
统一压缩表示的标度律
发表
由
Alexandra 提交
作者: Andrei Panferov,
Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
摘要
缩放定律通过使模型性能能够根据模型大小、计算量和数据量进行可预测的缩放,塑造了机器学习领域的最新进展。与此同时,人工智能计算成本的上升推动了模型压缩技术的发展,特别是量化和稀疏化技术,这些技术旨在减轻与大规模训练和推理相关的巨大计算需求。本文研究了缩放定律与压缩格式之间的相互作用,探讨了当训练在各种压缩表示(例如稀疏、标量量化、稀疏量化甚至向量量化格式)上进行时,统一的缩放框架是否能准确预测模型性能。我们的主要贡献包括验证了一种通用的缩放定律公式,并表明它既可以单独应用,也可以在不同压缩类型之间进行组合应用。基于此,我们的主要发现是从理论和经验上证明存在一个简单的"容量"指标——基于表示拟合随机高斯数据的能力——该指标可以稳健地预测多种压缩表示中的参数效率。在实践方面,我们将我们的公式扩展到直接比较不同压缩格式的精度潜力,并推导出在稀疏量化格式上进行训练的更好算法。
本论文研究了缩放定律与压缩格式之间的相互作用,探索了统一的缩放框架是否能在模型通过各种压缩表示(如稀疏、标量量化、稀疏量化甚至向量量化格式)进行训练时准确预测模型性能。我们的主要贡献包括验证了一个通用的缩放定律公式,并表明它不仅可以单独应用于不同压缩类型,还可以组合应用。基于此,我们的主要发现是,从理论和经验上证明存在一个简单的“容量”指标——该指标基于表示拟合随机高斯数据的能力——它能够稳健地预测多种压缩表示下的参数效率。在实践方面,我们扩展了我们的公式,以直接比较不同压缩格式的准确性潜力,并推导出用于在稀疏量化格式上训练的更优算法。