KnowRL:探索用于确保事实性的知识型强化学习

发表
Ningyu ZhangNingyu Zhang 提交
作者: Baochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu ZhangNingyu Zhang

摘要

大型语言模型(LLM),特别是慢思考模型,常表现出严重的幻觉问题,由于在推理过程中无法准确识别知识边界而输出不正确的内容。虽然强化学习(RL)可以增强复杂的推理能力,但其以结果为导向的奖励机制往往缺乏对思考过程的事实监督,进一步加剧了幻觉问题。为了解决慢思考模型中高幻觉问题,我们提出了知识增强型强化学习,KnowRL。KnowRL通过将基于知识验证的事实性奖励整合到RL训练过程中,引导模型进行基于事实的慢思考,帮助它们识别自己的知识边界。这种在RL训练期间有针对性的事实输入使得模型能够学习并内化基于事实的推理策略。通过直接奖励推理步骤中对事实的遵循,KnowRL培养了更可靠的思考过程。在三个幻觉评估数据集和两个推理评估数据集上的实验结果表明,KnowRL在保持慢思考模型原有强大推理能力的同时,有效缓解了幻觉问题。我们的代码可在https://github.com/zjunlp/KnowRL获取。
查看 arXiv 页面查看 PDF

评论

Ningyu ZhangNingyu Zhang
论文作者
论文提交者

我们提出了知识增强型强化学习(Knowledge-enhanced RL),简称 KnowRL。KnowRL 通过将基于知识验证的事实性奖励整合到强化学习训练过程中,引导模型进行基于事实的慢速思考,帮助它们识别自身的知识边界。