⏶5
利用大型语言模型检测科学新颖性
发表
由
Zonglin Yang 提交
作者: Yan Liu,
Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
摘要
在科学呈指数级增长的时代,在学术界识别新颖的研究思路至关重要且充满挑战。尽管存在潜力,但缺乏适当的基准数据集阻碍了新颖性检测的研究。更重要的是,由于文本相似性和思想概念之间的差距,简单地采用现有的NLP技术(例如,检索然后交叉核对)并非万能解决方案。在本文中,我们提出利用大型语言模型(LLM)进行科学新颖性检测(ND),并构建了营销和NLP领域的两个新数据集。为了构建用于ND的考虑周全的数据集,我们提出根据论文之间的关系提取它们的闭包集,然后基于LLM总结其主要思想。为了捕捉思想概念,我们提出通过从LLM中提取思想层面的知识来训练一个轻量级检索器,以对齐具有相似概念的思想,从而实现高效准确的思想检索,用于LLM新颖性检测。实验表明,在所提出的用于思想检索和ND任务的基准数据集上,我们的方法始终优于其他方法。代码和数据可在 https://anonymous.4open.science/r/NoveltyDetection-10FB/ 获取。
首个专门设计用于自动检测科学假说新颖性的基准。