评估语言模型预测器时的陷阱

发表
Shashwat GoelShashwat Goel 提交
作者: Daniel PalekaDaniel Paleka, Shashwat Goel, Jonas GeipingJonas Geiping, Florian TramerFlorian Tramèr

摘要

大语言模型(LLMs)最近已被应用于预测任务,一些研究声称这些系统能够达到或超越人类表现。在本文中,我们认为,作为一个社区,我们应该对这些结论持谨慎态度,因为评估LLM预测器面临独特的挑战。我们识别出两大类问题:(1)由于多种形式的时间泄露,难以信任评估结果;(2)难以将评估性能外推到实际预测中。通过系统的分析和以往工作的具体例子,我们展示了评估缺陷如何引发对当前和未来性能主张的担忧。我们认为需要更严格的评估方法来可靠地评估LLMs的预测能力。
查看 arXiv 页面查看 PDF

评论

Shashwat GoelShashwat Goel
论文提交者

我们讨论了评估语言模型预测未来能力相关主张的挑战。