⏶30
B-score:利用响应历史检测大语言模型中的偏见
发表
由
taesiri 提交

作者:
An Vo,
Mohammad Reza Taesiri, Daeyoung Kim,
Anh Totti Nguyen



摘要
大型语言模型(LLM)通常表现出强烈的偏见,例如歧视女性或偏爱数字7。我们研究了LLM在多轮对话中被允许观察其对同一问题的先前回答时,是否能够输出更少偏见的答案。为了了解哪些类型的问题更容易引发偏见回答,我们使用我们提出的涵盖9个主题且属于三种类型的问题集测试了LLM:(1)主观型;(2)随机型;(3)客观型。有趣的是,LLM在多轮对话中响应寻求一个随机的、无偏见的答案的问题时,能够进行“去偏见”。此外,我们提出了一种新的指标B-score,该指标能够有效检测针对主观型、随机型、简单型和困难型问题的偏见。在MMLU、HLE和CSQA数据集上,与单独使用口头表达的置信度分数或单轮回答的频率相比,利用B-score显著提高了LLM答案的验证准确性(即接受LLM正确答案并拒绝错误答案)。代码和数据可在以下链接获取:https://b-score.github.io。
2505.18545