⏶13
健康的LLM?对LLM了解英国政府公共卫生信息的基准测试
发表
由
Harris 提交
作者:
Joshua Harris,
Fan Grayson,
Felix Feldman,
Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
摘要
随着大型语言模型 (LLMs) 的广泛普及,为了成功应用于现实世界,有必要详细了解它们在特定领域内的知识。这在公共卫生领域尤其关键,因为未能检索到相关、准确和最新的信息可能会严重影响英国居民。然而,目前对 LLM 关于英国政府公共卫生信息的知识知之甚少。为了解决这个问题,本文引入了一个新的基准测试 PubHealthBench,包含8000多个问题,用于评估 LLM 的多项选择问答 (MCQA) 能力以及对公共卫生查询的自由格式回答能力,这些问题是通过自动化流程创建的。我们还发布了一个新的数据集,包含了作为 PubHealthBench 源文本使用的提取出的英国政府公共卫生指南文档。在 PubHealthBench 上评估了24个 LLM 后,我们发现最新的私有 LLM(GPT-4.5、GPT-4.1 和 o1)具有高度的知识水平,在 MCQA 设置中达到了 >90% 的准确率,并超越了进行粗略搜索引擎搜索的人类。然而,在自由格式设置中,我们看到性能较低,没有模型的得分超过 75%。因此,尽管有迹象表明最先进 (SOTA) 的 LLM 正日益成为准确的公共卫生信息来源,但在就公共卫生主题提供自由格式回答时,可能仍然需要额外的保障措施或工具。
PubHealthBench 是一个旨在广泛评估大型语言模型对当前英国政府公共卫生指南了解程度的基准测试。完整的基准测试数据集可在以下链接获取:- https://huggingface.co/datasets/Joshua-Harris/PubHealthBench