⏶4
双向LM是更好的知识记忆者吗?真实世界知识注入基准测试
发表
由
Letian Peng 提交

作者: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu,
Letian Peng, Jayanth Srinivasa, Gaowen Liu,
Jingbo Shang

摘要
尽管大型语言模型(LLM)取得了显著进展,但由于缺乏标准化和高质量的测试平台,它们的知识记忆能力仍未得到充分探索。在本文中,我们介绍了一个新颖的、真实的、大规模的知识注入基准测试,它无需人工干预即可随时间持续演进。具体来说,我们提出了 WikiDYK,它利用了维基百科“你知道吗……”条目中最近添加的、人工撰写的事实。这些条目由专业的维基百科编辑根据可验证性和清晰度等标准精心挑选。每个条目被转换为多个问答对,涵盖从简单的完形填空提示到复杂的多跳问题等多种任务格式。WikiDYK 包含 12,290 个事实和 77,180 个问题,并且可以无缝扩展维基百科编辑未来的更新。使用持续预训练进行的广泛实验揭示了一个令人惊讶的见解:尽管因果语言模型(CLM)在现代 LLM 中普遍存在,但与双向语言模型(BiLM)相比,它们的知识记忆能力显著较弱,可靠性方面的准确率低了 23%。为了弥补当前 BiLM 规模较小的问题,我们引入了一个模块化协作框架,利用 BiLM 集成作为外部知识库与 LLM 集成。实验表明,我们的框架将可靠性准确率进一步提高了高达 29.1%。
尽管大型语言模型 (LLMs) 取得了显著进展,但由于缺乏标准化和高质量的测试基础,它们的知识记忆能力仍未得到充分探索。在本文中,我们引入了一个新颖、真实世界、大规模的知识注入基准测试集,它可以随时间持续演变,无需人工干预。具体来说,我们提出了WikiDYK,它利用了维基百科“你知道吗...”条目中最近添加的人工撰写的事实。这些条目由维基百科专家编辑根据可验证性和清晰度等标准精心挑选。每个条目都被转换成多个问答对,涵盖从简单的填空提示到复杂的多跳问题等多种任务格式。WikiDYK包含12,290个事实和77,180个问题,并且可通过维基百科编辑未来的更新无缝扩展。使用持续预训练进行的大量实验揭示了一个令人惊讶的见解:尽管因果语言模型 (CLMs) 在现代LLMs中很普遍,但与双向语言模型 (BiLMs) 相比,它们的知识记忆能力显著较弱,在可靠性方面的准确率低了23%。为了弥补当前BiLMs规模较小的不足,我们引入了一个模块化协作框架,利用BiLMs集成作为外部知识库来与LLMs集成。实验表明,我们的框架将可靠性准确率进一步提高了高达29.1%。