何时信任上下文:上下文可靠性的自我反思式辩论

发表
Fang WuFang Wu 提交
作者: Zeqi Zhou, Fang WuFang Wu, Shayan Talaei, Haokai Zhao, Cheng Meixin, Tinson Xu, Amin Saberi, Yejin Choi

摘要

大型语言模型经常遇到参数知识与上下文输入之间的冲突,这常常导致事实不一致或幻觉。我们提出了用于上下文可靠性的自反思辩论(SR-DCR),这是一个轻量级框架,它将token级别的自信度与不对称的多智能体辩论相结合,以裁决此类冲突。一个不了解上下文的批评者挑战一个从给定段落中进行论证的辩护者;一个评判模型评估辩论并确定上下文的可靠性。最终答案通过结合裁决和模型置信度来选择。在ClashEval基准上的实验表明,SR-DCR在保持可信输入准确性的同时,持续增强了对误导性上下文的鲁棒性,并且以最小的计算开销,超越了经典的辩论方法和仅依赖置信度的基线。代码可在 https://github.com/smiles724/Self-Reflective-Debates 获取。
查看 arXiv 页面查看 PDF

评论

Fang WuFang Wu
论文作者
论文提交者

🧠 何时信任上下文:用于上下文可靠性的自反思辩论

在这项工作中,我们解决了一个大型语言模型对齐中的基本挑战:当模型内部知识与给定上下文不一致时,模型应如何响应?

我们引入了SR-DCR(Self-Reflective Debate for Contextual Reliability,用于上下文可靠性的自反思辩论),这是一个轻量级框架,它结合了:

Token级别的自我置信度,用于评估模型是否“独自”知道答案。

非对称多智能体辩论,其中一个智能体捍卫上下文,而另一个智能体在无法访问原文的情况下批判上下文。

一个裁判模型,用于裁决辩论并决定是否应信任上下文。

🔍 我们的方法提高了对幻觉或误导性上下文的鲁棒性,尤其是在检索增强生成(RAG)设置中。

🧪 我们在ClashEval基准上进行了评估,并显示在GPT-4o、Claude 3和LLaMA 3等模型上,我们的方法相较于经典辩论和仅置信度方法有持续的提升。

📚 论文: https://arxiv.org/abs/2506.06020

💻 代码: github.com/smiles724/Self-Reflective-Debates

fig.jpg

我们很高兴能为提升大型语言模型的解释性、鲁棒性和推理能力贡献工具。欢迎尝试并告诉我们您的想法!