⏶2
COSMOS:可预测且经济高效的 LLM 适配
发表
由
Jiayu (Mila) Wang 提交

作者:
Jiayu Wang,
Aws Albarghouthi,
Frederic Sala


摘要
大语言模型 (LLM) 通过使用各种各样的适配策略,在众多任务上取得了显著的性能。然而,在资源限制下最佳地选择模型和适配策略是具有挑战性的,并且通常需要进行大量的实验。我们探究是否可能无需进行高成本的试验,就能准确地预测性能和成本。我们将大语言模型的策略选择问题进行形式化,并引入了 COSMOS,这是一个统一的预测框架,能够以最小的成本高效地估计适配结果。我们对我们的框架进行了实例化并研究了其能力,通过使用一对强大的预测器:用于预测微调性能的嵌入增强型轻量级代理模型,以及用于预测检索增强的上下文学习的低样本缩放定律。在八个具有代表性的基准测试上进行的广泛评估表明,COSMOS 实现了高预测准确率,同时平均降低了 92.72% 的计算成本,在资源密集型场景中最高降低了 98.71%。我们的研究结果表明,对适配结果进行高效预测不仅是可行的,而且能够在保持性能标准的同时,显著降低大语言模型部署的计算开销。
大型语言模型(LLMs)通过使用各种不同的适应策略,在众多任务中取得了卓越的性能。然而,在资源限制下优化选择模型和适应策略具有挑战性,并且通常需要进行大量实验。我们研究是否有可能在不进行昂贵试验的情况下准确预测性能和成本。我们形式化了大型语言模型的策略选择问题,并引入了 COSMOS,这是一个统一的预测框架,能够以最低的成本有效估计适应结果。我们通过一对强大的预测器实例化并研究了我们框架的能力:嵌入增强型轻量级代理模型,用于预测微调性能;以及低样本缩放律,用于预测检索增强型情境学习。在八个代表性基准上的广泛评估表明,COSMOS 实现了高预测精度,同时平均将计算成本降低了 92.72%,在资源密集型场景中最高可达 98.71%。我们的结果表明,有效预测适应结果不仅可行,而且可以在保持性能标准的同时,显著减少大型语言模型部署的计算开销。