QueryBandits 用于减少幻觉:利用语义特征进行无悔改写

发表
Nicole ChoNicole Cho 提交
作者: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

摘要

大型语言模型 (LLMs) 中先进的推理能力导致了更高的幻觉普遍性;然而,大多数缓解工作都侧重于事后过滤,而不是塑造触发它们的查询。我们引入了 QueryBandits,这是一个强盗框架,用于设计改写策略以最大化奖励模型,该模型根据输入查询的 17 个语言特征的敏感性来概括幻觉倾向——因此,主动引导 LLM 避免产生幻觉。在 13 个不同的 QA 基准和每个数据集的 1,050 个词法扰动查询中,我们的顶级上下文 QueryBandit (Thompson Sampling) 在无改写基线上取得了 87.5% 的胜率,并且在零样本静态提示(“释义”或“扩展”)方面分别优于 42.6% 和 60.3%。因此,我们通过以查询改写形式进行的干预,实证证实了 QueryBandits 在缓解幻觉方面的有效性。有趣的是,某些静态提示策略(占当前查询改写文献的相当一部分)的累积遗憾高于无改写基线,这表明静态改写会加剧幻觉。此外,我们发现收敛的每臂回归特征权重向量证实,对于所有查询,没有单一的改写策略是最优的。在此背景下,通过 QueryBandits 利用语义特征进行的引导式改写可以通过前向传递机制引起输出行为的显著变化,从而绕过了重新训练或基于梯度的适应的需要。
查看 arXiv 页面查看 PDF

评论

Nicole ChoNicole Cho
论文提交者

大型语言模型 (LLM) 的高级推理能力导致了更高的幻觉发生率;然而,大多数缓解工作都侧重于事后过滤,而不是塑造触发它们的查询。我们引入了 QueryBandits,一个强盗框架,它设计了改写策略来最大化一个奖励模型,该模型基于 17 种输入查询语言特征的敏感性来封装幻觉倾向——因此,主动将 LLM 引导远离生成幻觉。在 13 个多样化的 QA 基准测试和每个数据集的 1,050 个词汇扰动查询中,我们的顶级上下文 QueryBandits(Thompson 采样)相对于无改写基线取得了 87.5% 的胜率,并且在零样本静态提示(“释义”或“扩展”)上也分别高出 42.6% 和 60.3%。因此,我们实证证实了 QueryBandits 通过改写查询的干预措施在缓解幻觉方面的有效性。有趣的是,某些静态提示策略(构成了大量当前的查询改写文献)的累积后悔比无改写基线更高,这表明静态改写会加剧幻觉。此外,我们发现收敛的每臂回归特征权重向量证实,没有一个单一的改写策略对所有查询都最有效。在此背景下,通过 QueryBandits 利用语义特征引导的改写可以通过前向传递机制诱导输出行为的显著变化,从而绕过重新训练或基于梯度的适应的需要。