⏶13
大型语言模型重排序器的效率-有效性重排序浮点运算
发表
由
Tingyu Song 提交

作者: Zhiyuan Peng, Ting-ruen Wei,
Tingyu Song,
Yilun Zhao, Yi Fang


摘要
大型语言模型 (LLM) 近期已被应用于信息检索中的重排序任务,并取得了卓越性能。然而,其高计算需求通常阻碍了实际部署。现有研究通过代理指标(例如延迟、前向传播次数、输入令牌数和输出令牌数)来评估基于 LLM 的重排序器的效率。然而,这些指标取决于硬件和运行时选择(例如并行与否、批处理大小等),并且通常未能考虑模型大小,这使得解释变得困难,并模糊了效率-效益权衡的评估。为了解决这个问题,我们提出了 E2R-FLOPs,用于基于 LLM 的重排序器:每 PetaFLOP 排名指标 (RPP) 用于衡量每计算量的相关性,以及每 PetaFLOP 查询量 (QPP) 用于衡量与硬件无关的吞吐量。伴随新指标,我们建立了一个可解释的 FLOPs 估算器,即使无需运行任何实验也能估算基于 LLM 的重排序器的 FLOPs。基于所提出的指标,我们进行了全面的实验,评估了各种不同架构的基于 LLM 的重排序器,研究了效率-效益权衡,并提请研究社区关注此问题。
本文提出了E²R-FLOPS,一个用于评估基于LLM的重排序器效率的框架,该框架使用硬件无关的指标:每PetaFLOP的排序指标 (RPP) 和 每PetaFLOP的查询数 (QPP)。与现有代理指标(例如,延迟或token数量)不同,这些新指标考虑了模型大小和计算成本。为此,我们提出了一个基于E²R-FLOPS构建的可解释FLOPs估算器,无需运行模型即可进行效率分析。综合实验突出了不同LLM重排序器之间的效率-效果权衡,促进了更具可解释性和公平的比较。