⏶101
ScienceBoard:评测多模态自主智能体在真实科学工作流程中
发表
由
Qiushi 提交

作者:
Qiushi Sun, Zhoumianze Liu, Chang Ma,
Zichen Ding,
Fangzhi Xu, Zhangyue Yin,
Haiteng Zhao, Zhenyu Wu,
Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie,
Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu



摘要
大语言模型 (LLMs) 已将其影响力扩展到自然语言处理之外,极大地促进了跨学科研究的发展。最近,人们开发了各种基于 LLM 的智能体,以协助科学发现的进展,涵盖多个方面和领域。其中,能够像人类一样与操作系统交互的使用计算机的智能体,正在为自动化科学问题解决和处理研究人员工作流程中的常规任务铺平道路。认识到这些智能体的变革潜力,我们引入了 ScienceBoard,它包含两项互补的贡献:(i) 一个逼真、多领域的环境,具有动态且视觉丰富的科学工作流程,并集成了专业软件,智能体可以在其中通过不同接口自主交互,以加速复杂的科研任务和实验;以及 (ii) 一个包含 169 个高质量、经过严格验证的真实世界任务的挑战性基准,由人类策划,涵盖生物化学、天文学和地理信息学等领域的科学发现工作流程。对使用最先进主干模型的智能体(例如,GPT-4o、Claude 3.7、UI-TARS)进行的广泛评估表明,尽管取得了一些有希望的结果,但它们仍然无法可靠地协助科学家完成复杂的工作流程,总体成功率仅为 15%。深入分析进一步提供了宝贵的见解,用于解决当前智能体的局限性并提供更有效的设计原则,为构建更强大的科学发现智能体铺平道路。我们的代码、环境和基准可在以下链接获取:https://qiushisun.github.io/ScienceBoard-Home/。



TLDR:我们推出了 ScienceBoard,其特点是 (1) 一个带有真实科学软件(命令行界面 + 图形用户界面)的动态操作系统环境,以及 (2) 一个经过人工验证的基准测试,涵盖生化、天文学、地理信息系统、ATP 等领域。