⏶2

评估大型语言模型在真实世界预测中与人类超级预测员的对比表现

07月06日发表

07月08日由 Janna 提交

作者: Janna Lu

摘要

大型语言模型 (LLM) 在各种任务中展现出卓越的能力，但它们预测未来事件的能力仍未得到充分研究。一年前，大型语言模型难以接近人类群体（预测）的准确性。我评估了 Metaculus 上 464 个预测问题中的最先进 LLM，并将其性能与人类超级预测者进行比较。前沿模型获得的布莱尔分数表面上超越了人类群体，但与一组超级预测者相比仍显著逊色。

查看 arXiv 页面查看 PDF

Janna

论文提交者

我们做这些事，只是因为我们觉得它们很简单 :')

Mohammad Imran Khan

开始讨论

评估大型语言模型在真实世界预测中与人类超级预测员的对比表现

摘要

评论