⏶1
迈向可靠的生物医学假说生成:评估大型语言模型的真实性与幻觉
发表
由
Guangzhi Xiong 提交
作者: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
摘要
大型语言模型(LLM)在生物医学等科学领域展现出巨大的潜力,特别是在假设生成方面,它们可以分析大量文献,识别模式,并提出研究方向。然而,一个关键挑战在于评估生成假设的真实性,因为验证其准确性通常需要大量时间和资源。此外,LLM 中的幻觉问题可能导致生成看似合理但最终不正确的假设,从而损害其可靠性。为了促进对这些挑战的系统研究,我们引入了 TruthHypo,这是一个用于评估 LLM 生成真实生物医学假设能力的基准,以及 KnowHD,一个基于知识的幻觉检测器,用于评估假设在现有知识中的扎根程度。我们的结果表明,LLM 难以生成真实的假设。通过分析推理步骤中的幻觉,我们证明 KnowHD 提供的扎根分数可作为有效指标,用于从 LLM 的多样化输出中筛选出真实的假设。人工评估进一步验证了 KnowHD 在识别真实假设和加速科学发现方面的效用。我们的数据和源代码可在 https://github.com/Teddy-XiongGZ/TruthHypo 获取。
本文介绍了 TruthHypo,这是一个用于评估大型语言模型(LLMs)在生成真实的生物医学假设方面的能力的基准;以及 KnowHD,一个基于知识的幻觉检测器,用于评估假设在现有知识中的扎根程度。