超越人类判断:对大型语言模型道德价值观理解的贝叶斯评估

发表
Maciej SkorskiMaciej Skorski 提交
作者: Maciej SkorskiMaciej Skorski, Alina Landowska

摘要

与人类相比,大型语言模型如何理解道德维度?这项首次对市场领先语言模型进行大规模贝叶斯评估的研究提供了答案。与以往使用确定性真相(多数或包含规则)的工作不同,我们对注释者分歧进行建模,以捕捉不确定性(固有的人类分歧)和认知不确定性(模型领域敏感性)。我们评估了顶尖语言模型(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick),涉及来自约 700 名注释者对 10 万多篇涵盖社交媒体、新闻和论坛的文本进行的 25 万多次注释。我们经过 GPU 优化的贝叶斯框架处理了 100 多万次模型查询,结果显示 AI 模型通常排在人类注释者前 25% 的行列,实现了远高于平均水平的平衡准确性。重要的是,我们发现 AI 产生的假阴性远少于人类,这突显了它们更敏感的道德检测能力。
查看 arXiv 页面查看 PDF

评论

Maciej SkorskiMaciej Skorski
论文作者
论文提交者

这项工作通过模拟人机分歧来评估大型语言模型的道德理解能力,表明 AI 模型在更平衡的预测下表现良好,显著减少了假阴性。

Petruta-Simina CoroianPetruta-Simina Coroian

有趣的论文!结果令人印象深刻。

然而,我觉得图4有点令人困惑,人类基线的圆圈形状每种颜色都出现了两次,而 Llama 4-Maverick 的菱形却没有出现。这是错误还是我理解错了什么?

Maciej SkorskiMaciej Skorski
论文作者
论文提交者

感谢您报告图形错误。确实,Maverick 被分配了错误的形状。我们今晚将更新 arXiv 论文。

代码库和项目页面中的图形都是正确的,第二个图形是交互式的,这可能会有所帮助。

我们计划很快发布 GPT-5 的结果,在内容审核的限制范围内,一旦准备就绪,我们会通知您。