⏶14
CLASH:从多角度评判高风险困境的语言模型评估
发表
由
Lee 提交
作者:
Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
摘要
即使对于人类来说,在涉及冲突价值观的高风险困境中进行抉择也极具挑战性,更不用说对于人工智能了。然而,先前评估大型语言模型(LLM)在此类情境下的推理能力的工作,一直局限于日常情景。为了弥合这一差距,本研究首先介绍了 CLASH(基于角色视角的 LLM 在高风险情境中的评估),这是一个精心策划的数据集,包含 345 个高影响力困境以及 3,795 个具有不同价值观的个体视角。特别是,我们设计 CLASH 的目的是为了支持研究基于价值的决策过程的关键方面,这些方面在先前的工作中缺失,包括理解决策的矛盾性和心理不适,以及捕捉角色视角中价值观的时间变化。通过对 10 个开放和封闭的前沿模型进行基准测试,我们发现了几个关键发现。(1) 即使是最强大的模型,如 GPT-4o 和 Claude-Sonnet,在识别应该犹豫不决的情境时,准确率也低于 50%,而在明确的情景中,它们的表现明显更好。(2) 虽然 LLM 能够合理地预测人类标记的心理不适,但它们对涉及价值观转变的视角理解不足,这表明 LLM 需要对复杂价值观进行推理。(3) 我们的实验还揭示了 LLM 的价值偏好与其对给定价值观的可引导性之间存在显着相关性。(4) 最后,当从第三人称视角进行价值推理时,与第一人称设置相比,LLM 表现出更大的可引导性,尽管某些价值对从第一人称框架中获益匪浅。
即使对于人类而言,在涉及冲突价值观的高风险困境中进行抉择也极具挑战性,更不用说人工智能了。然而,先前评估大型语言模型 (LLMs) 在此类情境中推理能力的研究,大多局限于日常场景。为了弥合这一差距,本研究首先推出了 CLASH (高风险情境中基于角色视角的 LLM 评估数据集),这是一个精心策划的数据集,包含 345 个高影响力困境,以及 3,795 个来自不同价值观的个体视角。 特别是,我们设计 CLASH 的目的是为了支持研究基于价值的决策过程中的关键方面,而这些方面在先前的工作中有所缺失,包括理解决策两难和心理不适,以及捕捉角色视角中价值观的时间性转变。通过对 10 个开源和闭源的前沿模型进行基准测试,我们揭示了几个关键发现。(1) 即使是最强大的模型,如 GPT-4o 和 Claude-Sonnet,在识别应采取两难决策的情境时,准确率也低于 50%,而它们在明确的情况下表现明显更好。(2) 虽然 LLMs 能够合理地预测人类所标记的心理不适,但它们对涉及价值观转变的视角理解不足,这表明 LLMs 需要对复杂价值观进行推理。(3) 我们的实验还揭示了 LLMs 的价值偏好与其在给定价值上的可引导性之间存在显著相关性。(4) 最后,与第一人称设置相比,当 LLMs 从第三方视角进行价值推理时,表现出更强的可引导性,尽管某些价值对从第一人称框架中获益匪浅。