TruthRL:通过强化学习激励诚实的LLM

发表
Zhepei WeiZhepei Wei 提交
作者: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja GollapudiTeja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong

摘要

AI 生成总结
TruthRL 是一个强化学习框架,通过平衡准确性和弃权来增强大型语言模型的真实性,显著减少了幻觉并提高了跨基准测试的性能。
虽然大型语言模型(LLM)在事实性问题回答方面表现出色,但它们仍然容易出现幻觉和不真实的回答,尤其是在任务需要超出其参数知识的信息时。事实上,真实性需要的不仅仅是准确性——模型还必须识别不确定性并在不确定时弃权,以避免幻觉。这给现有方法带来了根本性的挑战:优化准确性的方法往往会加剧幻觉,而鼓励弃权的方法可能会变得过于保守,牺牲正确的答案。这两种极端都会损害真实性。在这项工作中,我们提出了 TruthRL,一个直接优化 LLM 真实性的通用强化学习(RL)框架。具体来说,我们使用 GRPO 和一个简单而有效的 ternary(三值)奖励来实现 TruthRL,该奖励区分正确答案、幻觉和弃权。它激励模型通过提供正确响应以及在不确定时允许弃权来减少幻觉,从而提高真实性。在四个知识密集型基准上的广泛实验表明,与 vanilla RL 相比,TruthRL 将幻觉显著减少了 28.9%,真实性提高了 21.1%,并且在检索和非检索设置下的各种骨干模型(例如,Qwen、Llama)中均取得了持续的提升。深入的消融研究表明,香草准确性驱动的方法,如监督微调或二元奖励 RL,难以平衡事实正确性和不确定性。相比之下,我们提出的真实性驱动的 TruthRL 在准确性和真实性方面均取得了强大的性能,突显了学习目标设计对于开发真实性 LLM 的重要性。
查看 arXiv 页面查看 PDF

评论

Zhepei WeiZhepei Wei
论文提交者

尽管大型语言模型(LLM)在事实性问答方面表现出色,但它们仍然容易产生幻觉和不真实的响应,尤其是在任务需要超出其参数知识的信息时。事实上,真实性需要的不只是准确性——模型还必须识别不确定性并在不确定时弃权,以避免幻觉。这为现有方法带来了一个根本性的挑战:优化准确性的方法往往会放大幻觉,而鼓励弃权的方法可能会变得过于保守,牺牲了正确答案。这两种极端最终都会损害真实性。在这项工作中,我们提出了 TruthRL,一个直接优化 LLM 真实性的通用强化学习(RL)框架。具体来说,我们使用 GRPO 和一个简单而有效的 ternary 奖励来实现 TruthRL,该奖励区分正确答案、幻觉和弃权。它激励模型不仅通过提供正确响应来减少幻觉,而且还通过在不确定时允许弃权来减少幻觉,从而提高真实性。在四个知识密集型基准测试上的广泛实验表明,与 vanilla RL 相比,TruthRL 在减少幻觉方面显著提高了 28.9%,在提高真实性方面提高了 21.1%,并且在各种骨干模型(例如,Qwen、Llama)下,在检索和非检索设置中都获得了一致的收益。深入的消融研究表明,vanilla 准确性驱动的方法(例如,监督微调或具有二元奖励的 RL)在平衡事实正确性和不确定性方面存在困难。相比之下,我们提出的真实性驱动的 TruthRL 在准确性和真实性方面都取得了强大的性能,这突显了学习目标设计对于开发真实 LLM 的重要性。我们还试验了更复杂的奖励设计,例如知识增强和推理增强的变体,并表明简单的 ternary 奖励方案通常效果更好。此外,我们发现 TruthRL 的改进源于增强了 LLM 识别其知识边界的能力,从而避免了像基线那样过于保守。进一步的分析证实,TruthRL 对幻觉诱导型问题具有鲁棒性,并且在生成准确响应方面更有信心。