⏶4
SciMaster:迈向通用科学 AI 智能体,第一部分。以 X-Master 为基础:我们能否在人类的终极考试中取得领先?
发表
由
Tiezhen WANG 提交
作者: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen
摘要
AI智能体的快速发展点燃了利用它们加速科学发现的长期抱负。实现这一目标需要对人类知识前沿有深刻的理解。因此,“人类的期末考试”(Humanity's Last Exam, HLE)为评估科学AI智能体提供了一个极具挑战性的试金石。在这项工作中,我们旨在构建通用智能体的基础架构,并通过在HLE上取得的领先表现来验证其能力。为此,我们引入了X-Master,这是一种工具增强型推理智能体,旨在通过在其推理过程中与外部工具灵活交互来模拟人类研究人员。该智能体以代码作为交互语言的概念为指导,可以灵活利用内置的Python库和我们定制的工具来增强推理能力。我们通过X-Masters进一步扩展了其能力,这是一个分散堆叠的智能体工作流,系统性地增强了推理的广度和深度。我们的开源解决方案X-Masters在HLE上创造了新的最先进记录,得分达到32.1%,超越了OpenAI(26.6%)和Google Deep Research(26.9%),成为首个突破30%门槛的系统。这项工作使我们能够更深入地理解复杂任务的解决过程,并积累了宝贵经验,可以为未来的进步提供信息,指导后续的模型训练。
评论
https://github.com/sjtu-sai-agents/X-Master?tab=readme-ov-file
?
我想指出的是:很有见地,但没有共享代码,就无法验证,且用处不大。
我很好奇,如果这个智能体由Grok-4驱动,HLE会是多少。