LLM中的临床知识无法转化为人际互动

发表
Andrew BeanAndrew Bean 提交
作者: Andrew BeanAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose KirkHannah Rose Kirk, juan ciroJuan Ciro, Rafael Mosquera, Sara Hincapié MonsalveSara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc RocherLuc Rocher, Adam MahdiAdam Mahdi

摘要

全球医疗服务提供者正在探索使用大型语言模型(LLMs)为公众提供医疗建议。LLMs目前在医疗执照考试中几乎能获得满分,但这并不一定转化为在现实世界环境中的准确表现。我们在一个有1298名参与者的对照研究中,测试了LLMs是否能在十个医疗情境中帮助公众识别潜在病情并选择行动方案(处置)。参与者被随机分配接受LLM(GPT-4o、Llama 3、Command R+)的帮助或他们自己选择的来源(对照组)。单独测试时,LLMs准确地完成了情境,平均在94.9%的情况下正确识别了病情,在56.3%的情况下正确识别了处置。然而,使用相同LLMs的参与者识别相关病情的比例低于34.5%,识别处置的比例低于44.2%,两者均不优于对照组。我们将用户互动确定为在医疗建议中部署LLMs的挑战。医疗知识的标准基准和模拟患者互动并不能预测我们在人类参与者身上发现的失败。展望未来,我们建议在医疗领域向公众部署之前,进行系统的用户测试来评估交互能力。
查看 arXiv 页面查看 PDF

评论

Andrew BeanAndrew Bean
论文作者
论文提交者

尽管 LLM 在完成医疗基准测试方面能力很强,但这种能力不容易转化为现实世界的部署。

Mustafa Tahir KANATMustafa Tahir KANAT

参与者阅读了一个情景并假装有症状。这与实际经历真实医疗问题所带来的疼痛、恐惧、焦虑和不确定性有本质区别。真实情绪可能会显著改变用户与LLM的互动方式、他们寻求的信息、他们对建议的解读以及他们的风险承受能力。