⏶62
FutureX:面向未来预测的大型语言模型智能体的高级在线基准测试
发表
由
jiashuo liu 提交
作者: Zhiyuan Zeng,
Jiashuo Liu, Siyuan Chen,
Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang,
Yang Yang,
Lingyue Yin, Mingren Yin,
Zhenwei Zhu,
Tianle Cai,
Zehui Chen,
Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao,
Xiangsheng Li, Jingkai Liu, Shuang Ni,
Zhoufutu Wen,
Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang



摘要
未来预测对于 LLM 代理来说是一项复杂的任务,需要高度的分析思维、信息收集、上下文理解和不确定性下的决策能力。代理不仅要收集和解释海量的动态信息,还要整合多样化的数据源、权衡不确定性,并根据新兴趋势调整预测,正如人类专家在政治、经济和金融等领域所做的那样。尽管其重要性不言而喻,但目前尚无大规模基准来评估代理在未来预测方面的能力,这主要是由于处理实时更新和检索及时、准确答案方面的挑战。为了解决这个问题,我们引入了 FutureX,这是一个动态的、实时的评估基准,专门为执行未来预测任务的 LLM 代理而设计。FutureX 是目前最大、最多样化的未来预测实时基准,支持每日实时更新,并通过自动化问题收集和答案收集管道来消除数据污染。我们评估了 25 个 LLM/代理模型,包括具有推理、搜索能力以及集成外部工具的模型,例如开源的 Deep Research Agent 和闭源的 Deep Research 模型。本次全面评估旨在评估代理在动态环境中的适应性推理和性能。此外,我们还对代理在面向未来的任务中的失败模式和性能缺陷进行了深入分析,包括其对虚假网页的脆弱性以及时间有效性。我们的目标是建立一个动态的、无污染的评估标准,以推动 LLM 代理在复杂推理和预测性思维方面达到专业人类分析师水平的发展。

一个完全没有污染的基准!
世界上第一个用于未来实际预测的实时基准,避免任何数据污染,涵盖政治、经济、文化和体育等多样化领域。一个可靠的基准,用于测试 LLM 代理的规划、搜索和推理能力!