⏶3
评估语言模型预测器时的陷阱
发表
由
Shashwat Goel 提交

作者:
Daniel Paleka, Shashwat Goel,
Jonas Geiping,
Florian Tramèr
摘要
大语言模型(LLMs)最近已被应用于预测任务,一些研究声称这些系统能够达到或超越人类表现。在本文中,我们认为,作为一个社区,我们应该对这些结论持谨慎态度,因为评估LLM预测器面临独特的挑战。我们识别出两大类问题:(1)由于多种形式的时间泄露,难以信任评估结果;(2)难以将评估性能外推到实际预测中。通过系统的分析和以往工作的具体例子,我们展示了评估缺陷如何引发对当前和未来性能主张的担忧。我们认为需要更严格的评估方法来可靠地评估LLMs的预测能力。
我们讨论了评估语言模型预测未来能力相关主张的挑战。