⏶24
LLM中的临床知识无法转化为人际互动
发表
由
Andrew Bean 提交
作者:
Andrew M. Bean, Rebecca Payne, Guy Parsons,
Hannah Rose Kirk,
Juan Ciro, Rafael Mosquera,
Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko,
Luc Rocher,
Adam Mahdi


摘要
全球医疗服务提供者正在探索使用大型语言模型(LLMs)为公众提供医疗建议。LLMs目前在医疗执照考试中几乎能获得满分,但这并不一定转化为在现实世界环境中的准确表现。我们在一个有1298名参与者的对照研究中,测试了LLMs是否能在十个医疗情境中帮助公众识别潜在病情并选择行动方案(处置)。参与者被随机分配接受LLM(GPT-4o、Llama 3、Command R+)的帮助或他们自己选择的来源(对照组)。单独测试时,LLMs准确地完成了情境,平均在94.9%的情况下正确识别了病情,在56.3%的情况下正确识别了处置。然而,使用相同LLMs的参与者识别相关病情的比例低于34.5%,识别处置的比例低于44.2%,两者均不优于对照组。我们将用户互动确定为在医疗建议中部署LLMs的挑战。医疗知识的标准基准和模拟患者互动并不能预测我们在人类参与者身上发现的失败。展望未来,我们建议在医疗领域向公众部署之前,进行系统的用户测试来评估交互能力。
尽管 LLM 在完成医疗基准测试方面能力很强,但这种能力不容易转化为现实世界的部署。