⏶9
LOOM-Scope:一个全面高效的长上下文模型评估框架
发表
由
Zecheng Tang 提交

作者: Zecheng Tang, Haitian Wang,
Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang

摘要
长上下文处理已成为大型语言模型(LLMs)的一项基本能力。为了评估模型的长上下文性能,已提出了许多长上下文评估基准。然而,这些基准测试中评估设置的变化导致结果不一致,使得难以进行可靠的比较。此外,长上下文评估的高计算成本给社区全面评估长上下文模型带来了巨大障碍。在本文中,我们提出了LOOM-Scope,一个全面且高效的长上下文评估框架。LOOM-Scope标准化了跨不同基准的评估设置,支持部署高效的长上下文推理加速方法,并引入了一个全面而轻量级的基准套件来全面评估模型。主页:https://loomscope.github.io
我们构建了一个长上下文评估框架:LOOM-Scope。