⏶5
通行成本:一个用于评估语言模型的经济框架
发表
由
Mehmet Hamza Erol 提交
作者:
Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
摘要
人工智能系统在经济中的广泛采用取决于它们产生超过其推理成本的经济价值的能力。评估这种权衡需要考虑性能和成本的指标。我们提出了一个基于生产理论的框架,通过结合准确性和推理成本来评估语言模型。我们引入了“通过成本”,即生成正确解决方案的预期货币成本。然后,我们将“前沿通过成本”定义为在可用模型或“人类专家”中可实现的最小通过成本,使用雇用专家的近似成本。我们的分析揭示了独特的经济见解。首先,轻量级模型对于基本的定量任务最具成本效益,大型模型对于知识密集型任务最具成本效益,推理模型对于复杂的定量问题最具成本效益,尽管每个 token 的成本更高。其次,跟踪过去一年中的前沿通过成本显示出显著的进步,特别是对于复杂的定量任务,其成本大约每隔几个月减半。第三,为了追溯推动这一进展的关键创新,我们研究了反事实前沿:在没有特定模型类别的情况下对成本效率的估计。我们发现,轻量级、大型和推理模型的创新对于分别推动基本定量、知识密集型和复杂定量任务的前沿至关重要。最后,我们评估了诸如多数投票和自我完善等常见推理时技术带来的成本降低,发现它们的边际准确率提升很少能证明其成本是合理的。我们的研究结果强调,互补的模型级创新是成本效率的主要驱动力,我们的经济框架为衡量这一进展和指导部署提供了原则性工具。
这项工作提出了一个基于经济学的框架,旨在评估语言模型,其方法是将准确率和推理成本结合在一个统一的指标中。 它引入了 “Pass成本” (Cost-of-Pass):即生成问题正确答案的预期货币成本。然后,它定义了 “前沿Pass成本” (Frontier Cost-of-Pass):即可在现有模型或人类专家基线中实现的最低Pass成本。
利用此框架,我们能够量化语言模型相对于人类专家基线所提供的经济效益,追踪成本效率在过去一年中在不同任务类型上的演变,评估各种模型创新的必要性,并衡量常见推理时技术的经济价值。
我们的研究结果表明,不同模型类别和任务类型的成本效率呈现出明显的趋势,这反映了该领域更广泛的创新动态。 这些模式以及我们随时间观察到的变化,揭示了经济价值如何日益受到模型层面进步而非表面改进的影响。
论文: https://arxiv.org/abs/2504.13359
代码仓库: https://github.com/mhamzaerol/Cost-of-Pass
基准测试: https://huggingface.co/CostOfPass