教学中的谎言: 基于合成负样本的课程DPO用于幻觉检测

发表
Shrey PanditShrey Pandit 提交
作者: Shrey PanditShrey Pandit, Ashwin VAshwin Vinod, Liu Leqi, Ying Ding

摘要

由于幻觉文本的复杂性,对齐大型语言模型(LLM)以准确检测幻觉仍然是一项重大挑战。认识到幻觉样本通常比传统负样本表现出更高的欺骗性,我们在 DPO 对齐过程中使用这些精心设计的幻觉作为负例。我们的方法采用了课程学习策略,根据独立的实际核查模型中概率分数的最大降低来识别较简单的样本,然后逐步过渡到更难的样本进行训练。这种结构化的难度分级确保了稳定和渐进的学习。实验评估表明,使用课程 DPO 方法和高质量负样本训练的 HaluCheck 模型显著提高了模型在各种指标上的性能,在像 MedHallu 和 HaluEval 这样的困难基准上实现了高达 24% 的改进。此外,HaluCheck 模型在零样本设置中展现出鲁棒性,在各种基准上显著优于更大的最先进模型。
查看 arXiv 页面查看 PDF

评论

Shrey PanditShrey Pandit
论文作者
论文提交者

网页 - https://teachingwithlies.github.io/