⏶5
AssertBench:评估大型语言模型中自我主张的基准
发表
由
Atharv Chowdhary 提交
作者:
Jaeho Lee,
Atharv Chowdhary
摘要
最近的基准测试已经探讨了大型语言模型 (LLM) 的事实一致性和修辞鲁棒性。然而,关于事实真实的陈述的方向性框架如何影响模型的认同存在一个知识空白,这是 LLM 用户常见的情景。AssertBench 通过从事实核查数据集 FEVEROUS 中抽取有证据支持的事实来解决这个问题。对于每个(有证据支持的)事实,我们构建了两种框架提示:一种是用户声称该陈述在事实上是正确的,另一种是用户声称它是错误的。然后我们记录模型的认同和推理。期望的结果是模型坚持自己的判断,在两种框架下保持一致的真相评估,而不是为了迎合用户而改变其评估。AssertBench 通过根据模型在以中性方式呈现相同陈述时的准确性对结果进行分层,从而将框架引起的变异性与模型的潜在事实知识隔离开来。这样做,这个基准测试旨在衡量 LLM 在面对用户对同一事实提出的矛盾主张时“坚持己见”的能力。完整的源代码可在 https://github.com/achowd32/assert-bench 获取。
近期的基准测试已经探究了大型语言模型(LLMs)的事实一致性和修辞鲁棒性。然而,关于对事实为真的陈述进行定向性“框架”(framing)如何影响模型一致性存在知识空白,而这对于LLM用户来说是一个常见场景。AssertBench 通过从 FEVEROUS(一个事实核查数据集)中抽样证据支持的事实来解决这个问题。对于每一个(有证据支持的)事实,我们构建了两种“框架”提示:一种是用户声称该陈述事实正确,另一种是用户声称该陈述不正确。然后我们记录模型的同意情况和推理过程。期望的结果是模型能够坚持己见,在两种框架下保持一致的真相评估,而不是为了迎合用户而改变其评估。AssertBench 通过根据模型在中立呈现相同声明时的准确性对结果进行分层,从而将框架引起的变异性与模型潜在的事实知识隔离开来。通过这种方式,该基准旨在衡量LLM在面对用户对同一事实提出矛盾断言时“坚持立场”的能力。完整的源代码可在 https://github.com/achowd32/assert-bench 获取。