⏶6
SurveyBench:LLM(-Agent)在撰写学术调查方面表现如何?
发表
由
taesiri 提交

作者: Zhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu
摘要
AI 生成总结
一个名为 SurveyBench 的新评估框架,使用基于测验的方法评估自动生成的学术调查的质量,揭示了当前 LLM4Survey 方法的不足。学术论文综述写作,即将大量文献提炼成连贯且富有洞察力的叙述,仍然是一项劳动密集且智力要求很高的任务。虽然最近的方法,例如通用的 DeepResearch agent 和专门的综述方法,可以自动生成综述(又名 LLM4Survey),但它们的输出通常达不到人类的标准,并且缺乏一个严格的、与读者对齐的基准来彻底揭示它们的不足之处。为了填补这一空白,我们提出了一个细粒度的、由测验驱动的评估框架 SurveyBench,其特点是:(1) 来自最近 11,343 篇 arXiv 论文的典型综述主题以及相应的 4,947 篇高质量综述;(2) 一个多方面的指标层级,用于评估大纲质量(例如,覆盖广度、逻辑连贯性)、内容质量(例如,综合粒度、见解的清晰度)和非文本丰富度;以及 (3) 一个双模式评估协议,包括基于内容和基于测验的可回答性测试,这些测试明确地与读者的信息需求对齐。结果表明,SurveyBench 有效地挑战了现有的 LLM4Survey 方法(例如,在内容评估方面平均比人类低 21%)。
学术论文写作,是将大量文献提炼成连贯且富有洞察力的叙述,仍然是一项劳动密集且智力要求很高的任务。尽管近期的方法,如通用的 DeepResearch 代理和专门针对综述的方法,可以自动生成综述(又名 LLM4Survey),但它们的输出往往达不到人类的标准,并且缺乏一个严谨的、与读者对齐的基准来彻底揭示其不足。为了填补这一空白,我们提出了一个细粒度的、由测验驱动的评估框架 SurveyBench,其特点是:(1)来自最近 11,343 篇 arXiv 论文和相应的 4,947 篇高质量综述的典型综述主题;(2)一个多方面的指标层次结构,评估大纲质量(例如,覆盖广度、逻辑连贯性)、内容质量(例如,综合粒度、见解的清晰度)和非文本丰富度;(3)一个双模式评估协议,包括基于内容和基于测验的答案可测试性,明确地与读者的信息需求对齐。结果表明,SurveyBench 有效地挑战了现有的 LLM4Survey 方法(例如,在基于内容的评估中平均比人类低 21%)。