MIRIAD:用数百万医疗查询-响应对增强大型语言模型

发表
Salman AbdullahSalman Abdullah 提交
作者: QinyueQinyue Zheng, Salman AbdullahSalman Abdullah, Sam Rawal, CyrilCyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor

摘要

大型语言模型(LLMs)注定将通过先进的决策支持和灵活的聊天助手来改变医疗保健。然而,LLMs 容易生成不准确的医疗内容。为了使 LLMs 能够基于高质量的医学知识进行推理,我们通过 RAG(检索增强生成)为其配备了外部知识,其中非结构化的医学知识被分割成小的文本块,这些文本块可以被选择性地检索并整合到 LLMs 的上下文中。然而,现有的 RAG 管道依赖于原始的、非结构化的医学文本,这些文本可能存在噪声、未经整理且难以被 LLMs 有效利用。目前普遍缺乏将医学知识组织起来以最好地呈现给 LLMs 的系统方法。为了解决这些挑战,我们引入了 MIRIAD,一个大规模的、精心整理的语料库,包含 5,821,948 个医学问答对,每个问答对均通过结合 LLM 生成、过滤、接地和人工标注的半自动化流程,从同行评审的医学文献段落中改写并以之为基础。与依赖非结构化文本的现有医学语料库不同,MIRIAD 以可操作的查询-响应格式封装了网络规模的医学知识,从而实现了更有针对性的检索。在具有挑战性的医学问答基准测试上的实验表明,与使用相同源语料库和相同检索文本量的非结构化 RAG 基线相比,用 MIRIAD 增强 LLMs 可将准确率提高高达 6.7%。此外,MIRIAD 将 LLMs 检测医学幻觉的能力提高了 22.5% 到 37%(F1 分数提高)。我们还引入了 MIRIAD-Atlas,一个 MIRIAD 的交互式地图,涵盖 56 个医学学科,使临床用户能够可视化地探索、搜索和完善医学知识。MIRIAD 有望开启丰富的下游应用,包括医学信息检索器、增强型 RAG 应用和以知识为基础的聊天界面,最终使 LLM 在医疗保健领域的应用更加可靠。
查看 arXiv 页面查看 PDF
MIRIAD:用数百万医疗查询-响应对增强大型语言模型

评论

Salman AbdullahSalman Abdullah
论文作者
论文提交者

一个包含超过580万个合成医学问答对的大规模数据集,可解锁多种下游应用:医疗信息检索器、增强型RAG(检索增强生成)应用以及知识驱动的聊天界面。