⏶5
学习推理以探究事实性
发表
由
Xilun Chen 提交
作者: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
摘要
推理大型语言模型 (R-LLM) 极大地推动了复杂推理任务的发展,但它们在事实性方面常常表现不佳,与非推理模型相比,在长篇事实性基准测试中产生了更多的幻觉。然而,将在线强化学习 (RL)(近期 R-LLM 进展中的一个关键组成部分)扩展到长篇事实性设置面临着几个独特的挑战,这主要是由于缺乏可靠的验证方法。以往的工作已经利用 FActScore 等自动化事实性评估框架在离线 RL 设置中整理偏好数据,但我们发现直接将这些方法作为在线 RL 的奖励会导致多种形式的奖励作弊,例如生成细节较少或不相关的响应。我们提出了一种新颖的奖励函数,该函数同时考虑了事实精确性、响应详细程度和答案相关性,并应用在线 RL 来学习高质量的事实推理。在六个长篇事实性基准测试中进行评估,我们的事实推理模型平均将幻觉率降低了 23.1 个百分点,答案详细程度提高了 23%,并且整体响应有用性没有下降。
在线强化学习(RL)学习长篇事实性文本的推理策略