LOOM-Scope:一个全面高效的长上下文模型评估框架

发表
Zecheng TangZecheng Tang 提交
作者: Zecheng Tang, Haitian Wang, Quantong QiuQuantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang

摘要

长上下文处理已成为大型语言模型(LLMs)的一项基本能力。为了评估模型的长上下文性能,已提出了许多长上下文评估基准。然而,这些基准测试中评估设置的变化导致结果不一致,使得难以进行可靠的比较。此外,长上下文评估的高计算成本给社区全面评估长上下文模型带来了巨大障碍。在本文中,我们提出了LOOM-Scope,一个全面且高效的长上下文评估框架。LOOM-Scope标准化了跨不同基准的评估设置,支持部署高效的长上下文推理加速方法,并引入了一个全面而轻量级的基准套件来全面评估模型。主页:https://loomscope.github.io
查看 arXiv 页面查看 PDF

评论

Zecheng TangZecheng Tang
论文提交者

我们构建了一个长上下文评估框架:LOOM-Scope。