⏶1
使用大型语言模型检测维基百科中语料库级别的知识不一致
发表
由
Sina S 提交

作者:
Sina J. Semnani, Jirayu Burapacheep, Arpandeep Khatua, Thanawan Atchariyachanvanit, Zheng Wang, Monica S. Lam

摘要
AI 生成总结
CLAIRE 是一个结合了 LLM 推理和检索的智能体系统,通过检测不一致性提高了 Wikipedia 的准确性,人类编辑报告了更高的置信度并识别了更多问题。维基百科是最大的开放知识语料库,被世界各地广泛使用,是训练大型语言模型(LLM)和检索增强生成(RAG)系统的关键资源。因此,确保其准确性至关重要。但维基百科有多准确,我们如何改进它?我们专注于不一致性,这是一种特定的事实不准确类型,并提出了语料库级不一致性检测任务。我们提出了CLAIRE,一个结合了LLM推理和检索的智能系统,可以展示潜在的不一致声明以及用于人工审查的上下文证据。在一项针对经验丰富的维基百科编辑的用户研究中,87.5%的人在使用CLAIRE时报告了更高的信心,并且参与者在相同时间内识别出了64.7%的不一致性。通过将CLAIRE与人工注释相结合,我们贡献了WIKICOLLIDE,这是第一个真实维基百科不一致性基准。通过CLAIRE辅助分析的随机抽样,我们发现至少有3.3%的英文维基百科事实与其他事实相矛盾,不一致性会传播到7.3%的FEVEROUS和4.0%的AmbigQA示例中。在此数据集上对强基线进行基准测试,显示出巨大的提升空间:最佳全自动化系统的AUROC仅为75.1%。我们的结果表明,矛盾是维基百科的一个可衡量组成部分,并且像CLAIRE这样的基于LLM的系统可以提供一个实用的工具来帮助编辑者大规模地提高知识一致性。
项目主页:https://DafnyComp.github.io/