⏶3

评估语言模型预测器时的陷阱

05月31日发表

06月03日由 Shashwat Goel 提交

作者: Daniel Paleka, Shashwat Goel, Jonas Geiping, Florian Tramer Florian Tramèr

摘要

大语言模型（LLMs）最近已被应用于预测任务，一些研究声称这些系统能够达到或超越人类表现。在本文中，我们认为，作为一个社区，我们应该对这些结论持谨慎态度，因为评估LLM预测器面临独特的挑战。我们识别出两大类问题：（1）由于多种形式的时间泄露，难以信任评估结果；（2）难以将评估性能外推到实际预测中。通过系统的分析和以往工作的具体例子，我们展示了评估缺陷如何引发对当前和未来性能主张的担忧。我们认为需要更严格的评估方法来可靠地评估LLMs的预测能力。

查看 arXiv 页面查看 PDF

Shashwat Goel

论文提交者

我们讨论了评估语言模型预测未来能力相关主张的挑战。

评估语言模型预测器时的陷阱

摘要

评论