⏶2
超越人类判断:对大型语言模型道德价值观理解的贝叶斯评估
发表
由
Maciej Skorski 提交

作者:
Maciej Skorski, Alina Landowska

摘要
与人类相比,大型语言模型如何理解道德维度?这项首次对市场领先语言模型进行大规模贝叶斯评估的研究提供了答案。与以往使用确定性真相(多数或包含规则)的工作不同,我们对注释者分歧进行建模,以捕捉不确定性(固有的人类分歧)和认知不确定性(模型领域敏感性)。我们评估了顶尖语言模型(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick),涉及来自约 700 名注释者对 10 万多篇涵盖社交媒体、新闻和论坛的文本进行的 25 万多次注释。我们经过 GPU 优化的贝叶斯框架处理了 100 多万次模型查询,结果显示 AI 模型通常排在人类注释者前 25% 的行列,实现了远高于平均水平的平衡准确性。重要的是,我们发现 AI 产生的假阴性远少于人类,这突显了它们更敏感的道德检测能力。
这项工作通过模拟人机分歧来评估大型语言模型的道德理解能力,表明 AI 模型在更平衡的预测下表现良好,显著减少了假阴性。