⏶43
SciArena:一个用于科学文献任务中基础模型的开放评估平台
发表
由
Yilun Zhao 提交

作者:
Yilun Zhao,
Kaiyan Zhang,
Tiansheng Hu,
Sihong Wu, Ronan Le Bras, Taira Anderson, Jonathan Bragg, Joseph Chee Chang, Jesse Dodge, Matt Latzke, Yixin Liu, Charles McGrady, Xiangru Tang,
Zihang Wang, Chen Zhao, Hannaneh Hajishirzi, Doug Downey, Arman Cohan

摘要
我们推出了SciArena,这是一个开放的协作平台,用于评估基础模型在科学文献任务上的表现。与传统的科学文献理解和综合基准不同,SciArena直接让研究社区参与进来,遵循Chatbot Arena的评估方法,即通过社区投票进行模型比较。通过利用集体智慧,SciArena为开放式科学任务提供了社区驱动的模型性能评估,这些任务需要基于文献的长篇回复。该平台目前支持23个开源和专有基础模型,并已从不同科学领域的可靠研究人员那里收集了超过13,000张投票。我们分析了迄今为止收集的数据,确认提交的问题是多样的,符合现实世界的文献需求,并且参与研究人员在评估中表现出很强的一致性和标注者间的一致性。我们根据模型排名排行榜讨论了结果和见解。为了进一步促进构建基于模型的文献任务自动化评估系统的研究,我们发布了SciArena-Eval,这是一个基于我们收集的偏好数据的元评估基准。该基准通过比较模型之间的两两评估与人类投票,来衡量模型判断答案质量的准确性。我们的实验强调了该基准的挑战,并强调了对更可靠的自动化评估方法的需求。
科学文献正以空前的速度增长,使研究人员难以保持更新并综合新知识。基础模型正越来越多地被用于此,但在开放式科学任务中评估其能力仍是一个重大挑战。传统的基准测试通常不适用于科学任务中的细致评估,因为它们是静态的、规模有限且迅速过时。为解决这些限制,我们推出了 SciArena,一个开放协作平台,直接吸引科学研究社区参与评估科学文献任务中的基础模型。这种针对大型语言模型的众包、直接对抗评估方法已在通用领域由 Chatbot Arena 等平台成功开创。