生成式能量竞技场 (GEA):在大型语言模型 (LLM) 人工评估中纳入能量意识

发表
GonzaloGonzalo 提交
作者: Carlos Arriaga, GonzaloGonzalo Martínez, Eneko SendínEneko Sendin, Javier CondeJavier Conde, pedro reviriegoPedro Reviriego

摘要

评估大型语言模型(LLM)是一项复杂的任务,目前已提出了多种方法。最常见的是使用自动化基准测试,其中LLM需要回答不同主题的多项选择题。然而,这种方法存在一定的局限性,最令人担忧的是其与人类评估结果的相关性较差。另一种方法是让人类评估LLM。随着需要评估的模型数量庞大且不断增长,这种方法带来了可扩展性问题,使得基于招募评估员并让他们对模型响应进行排名这种传统研究变得不切实际(且成本高昂)。另一种方法是使用公共竞技场,例如流行的LM竞技场,任何用户都可以在其中自由评估任何问题上的模型,并对两个模型的响应进行排名。随后,这些结果被整理成模型排名。LLM的一个日益重要的方面是其能耗,因此,评估能耗意识如何影响人类在选择模型时的决策是值得关注的。在本文中,我们提出了GEA(Generative Energy Arena,生成式能耗竞技场),这是一个在评估过程中纳入模型能耗信息的竞技场。论文还展示了通过GEA获得的初步结果,表明在大多数问题上,当用户了解能耗信息时,他们更倾向于选择规模较小且更节能的模型。这表明,在大多数用户交互中,更复杂、性能更优的模型所产生的额外成本和能耗并未带来足以证明其使用合理性的感知响应质量提升。
查看 arXiv 页面查看 PDF

评论

GonzaloGonzalo
论文作者
论文提交者

本文介绍了GEA(Generative Energy Arena),这是一个包含能耗数据的评估平台,它表明用户在了解能耗信息后更倾向于选择更小、更节能的模型。