论文arXiv:2507.04562⏶2评估大型语言模型在真实世界预测中与人类超级预测员的对比表现07月06日发表07月08日由 Janna 提交作者: Janna Lu摘要大型语言模型 (LLM) 在各种任务中展现出卓越的能力,但它们预测未来事件的能力仍未得到充分研究。一年前,大型语言模型难以接近人类群体(预测)的准确性。我评估了 Metaculus 上 464 个预测问题中的最先进 LLM,并将其性能与人类超级预测者进行比较。前沿模型获得的布莱尔分数表面上超越了人类群体,但与一组超级预测者相比仍显著逊色。查看 arXiv 页面查看 PDF评论Janna论文提交者 我们做这些事,只是因为我们觉得它们很简单 :')Mohammad Imran Khan 开始讨论
我们做这些事,只是因为我们觉得它们很简单 :')