⏶10
RealHarm:真实世界语言模型应用失败案例集
发表
由
Pierre Le Jeune 提交
作者:
Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
摘要
AI 生成总结
RealHarm是一个真实世界AI失败数据集,揭示了声誉损害和错误信息是语言模型部署中的主要风险,强调了现有防护措施和内容审核系统的脆弱性。面向消费者的应用程序中部署语言模型会带来许多风险。虽然现有关于此类应用程序的危害和风险的研究遵循源自监管框架和理论分析的自上而下的方法,但现实世界故障模式的经验证据仍然未被充分探索。在这项工作中,我们介绍了 RealHarm,这是一个注释了人工智能代理问题交互的数据集,该数据集基于对公开报告的事件的系统回顾而构建。从部署者的角度分析危害、原因和风险,我们发现声誉损害构成主要的组织危害,而虚假信息成为最常见的风险类别。我们凭经验评估了最先进的护栏和内容审核系统,以探究此类系统是否可以预防这些事件,从而揭示了人工智能应用程序保护方面的重大差距。
评论
论文作者
论文提交者
重点信息:
- RealHarm 是 AI 代理和聊天机器人之间一系列有问题的交互集合。它建立在从网上收集的真实对话(来自 AI 事件数据库和其他来源)的基础上
- 我们从观察到的对话中构建了一个基于证据的分类法。
- 最常见的危害类别是虚假信息,而模型部署者的主要后果是声誉损害。
- 现有的安全保障系统无法捕捉到这些事件,常常难以理解对话语境。