FutureX:面向未来预测的大型语言模型智能体的高级在线基准测试

发表
jiashuo liujiashuo liu 提交
作者: Zhiyuan Zeng, jiashuo liuJiashuo Liu, Siyuan Chen, Tianci HeTianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, yangyangYang Yang, YinLingyue Yin, Mingren Yin, ZHENWEI ZHUZhenwei Zhu, Tianle CaiTianle Cai, Zehui ChenZehui Chen, jiecao.chenJiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng LiXiangsheng Li, Jingkai Liu, Shuang Ni, Maxwell WenZhoufutu Wen, Ge ZhangGe Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

摘要

未来预测对于 LLM 代理来说是一项复杂的任务,需要高度的分析思维、信息收集、上下文理解和不确定性下的决策能力。代理不仅要收集和解释海量的动态信息,还要整合多样化的数据源、权衡不确定性,并根据新兴趋势调整预测,正如人类专家在政治、经济和金融等领域所做的那样。尽管其重要性不言而喻,但目前尚无大规模基准来评估代理在未来预测方面的能力,这主要是由于处理实时更新和检索及时、准确答案方面的挑战。为了解决这个问题,我们引入了 FutureX,这是一个动态的、实时的评估基准,专门为执行未来预测任务的 LLM 代理而设计。FutureX 是目前最大、最多样化的未来预测实时基准,支持每日实时更新,并通过自动化问题收集和答案收集管道来消除数据污染。我们评估了 25 个 LLM/代理模型,包括具有推理、搜索能力以及集成外部工具的模型,例如开源的 Deep Research Agent 和闭源的 Deep Research 模型。本次全面评估旨在评估代理在动态环境中的适应性推理和性能。此外,我们还对代理在面向未来的任务中的失败模式和性能缺陷进行了深入分析,包括其对虚假网页的脆弱性以及时间有效性。我们的目标是建立一个动态的、无污染的评估标准,以推动 LLM 代理在复杂推理和预测性思维方面达到专业人类分析师水平的发展。
查看 arXiv 页面查看 PDF
FutureX:面向未来预测的大型语言模型智能体的高级在线基准测试

评论

jiashuo liujiashuo liu
论文作者
论文提交者

一个完全没有污染的基准!

世界上第一个用于未来实际预测的实时基准,避免任何数据污染,涵盖政治、经济、文化和体育等多样化领域。一个可靠的基准,用于测试 LLM 代理的规划、搜索和推理能力!

yangyangyangyang
论文作者

这具有巨大的经济潜力!现实世界中的趋势(例如股市波动、疫情传播和技术采用曲线)是大量异构个体(个人、机构和公司)相互作用和涌现的结果。人工智能代理应该做得更好。