再思考!测试时计算对大型语言模型偏好、观点和信念的影响

发表
itay nakashitay nakash 提交
作者: George Kour, itay nakashItay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer

摘要

随着大型语言模型 (LLMs) 深入融入人类生活并日益影响决策,评估它们在多大程度上表现出主观偏好、观点和信念至关重要。这些倾向可能源于模型内部的偏见,这可能塑造其行为,影响其向用户提供的建议和推荐,并可能强化某些观点。本文提出了偏好、观点和信念调查 (POBs),这是一个旨在评估 LLM 在社会、文化、伦理和个人领域主观倾向的基准。我们应用此基准评估了领先的开源和闭源 LLM,衡量了可靠性、中立性和一致性等期望属性。此外,我们研究了通过推理和自我反思机制增加测试时计算对这些指标的影响。虽然在其他任务中有效,但我们的结果表明这些机制在我们的领域仅带来有限的增益。此外,我们发现较新的模型版本变得不那么一致,并且更偏向特定观点,突显了一个盲点和令人担忧的趋势。POBS: https://ibm.github.io/POBS
查看 arXiv 页面查看 PDF
再思考!测试时计算对大型语言模型偏好、观点和信念的影响

评论

itay nakashitay nakash
论文作者
论文提交者

我们提出了一个用于评估LLM主观偏好的基准,揭示了它们在有争议话题中的偏见,并表明推理和自我反思等测试时计算方法在中立性、可靠性和一致性方面的提升有限。