利用上下文感知缩放定律预测任务性能

发表
Kyle MontgomeryKyle Montgomery 提交
作者: Kyle MontgomeryKyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang

摘要

AI 生成总结
一个框架将大型语言模型的下游性能建模为训练计算和上下文的函数,从而为长上下文任务的高效设计提供见解。
缩放定律通过将交叉熵损失等上游指标与模型大小、训练数据和计算量等设计因素联系起来,彻底改变了我们对大型语言模型的理解。然而,这些传统的定律无法捕捉上下文扮演关键角色的下游任务性能。在这项工作中,我们提出了一种简单、可解释的框架,该框架将下游性能建模为训练计算量和提供的上下文的函数。我们通过在 Llama-2-7B 和 Llama-2-13B 的扩展上下文变体在 65,500 个独特实例(涵盖算术推理、常识推理和机器翻译三项任务)上的观测到的下游性能上拟合我们的框架来经验性地验证它。我们的结果表明,我们的框架准确地模拟了分布内的下游性能,在三个数量级的训练计算量上具有泛化性,并且在上下文量增加时能够可靠地推断性能。这些发现为训练计算量和上下文利用之间的相互作用提供了宝贵的见解,为设计更有效的长上下文 LLM 以适应各种下游任务提供了指导。我们的代码可在 https://github.com/wang-research-lab/context-scaling 获取。
查看 arXiv 页面查看 PDF

评论

Kyle MontgomeryKyle Montgomery
论文作者
论文提交者

本文通过将下游任务性能建模为训练计算量和上下文长度(例如,上下文内示例的数量)的函数,来扩展传统的缩放定律。在扩展上下文的 Llama-2 变体上,针对算术推理、常识推理和机器翻译任务进行的实证评估表明,该模型能够拟合观察到的行为,并在计算量和上下文长度的数量级上进行泛化。