RiOSWorld:基准测试多模态计算机使用代理的风险

发表
jingyi Yangjingyi Yang 提交
作者: jingyi YangJingyi Yang, Shuai Shao, Dongrui Liu, Jing Shao

摘要

随着多模态大型语言模型(MLLMs)的快速发展,它们越来越多地被部署为能够完成复杂计算机任务的自主计算机使用代理。然而,一个紧迫的问题出现了:为对话场景中通用 MLLMs 设计和对齐的安全风险原则,能否有效地转移到真实世界的计算机使用场景中?现有关于评估基于 MLLM 的计算机使用代理安全风险的研究存在一些局限性:要么缺乏真实的交互环境,要么只狭隘地关注一种或少数几种特定风险类型。这些局限性忽视了真实世界环境的复杂性、可变性和多样性,从而限制了对计算机使用代理的全面风险评估。为此,我们引入了 RiOSWorld,一个旨在评估基于 MLLM 的代理在真实世界计算机操作中潜在风险的基准。我们的基准包含 492 个高风险任务,涵盖各种计算机应用程序,包括网络、社交媒体、多媒体、操作系统、电子邮件和办公软件。我们根据风险来源将这些风险分为两大类:(i)用户源性风险和(ii)环境风险。为了进行评估,我们从两个角度评估安全风险:(i)风险目标意图和(ii)风险目标完成。在 RiOSWorld 上对多模态代理进行的广泛实验表明,当前的计算机使用代理在真实世界场景中面临显著的安全风险。我们的发现强调了在真实世界计算机操作中对计算机使用代理进行安全对齐的必要性和紧迫性,为开发可信赖的计算机使用代理提供了宝贵的见解。我们的基准已在 https://yjyddq.github.io/RiOSWorld.github.io/ 公开提供。
查看 arXiv 页面查看 PDF

评论

jingyi Yangjingyi Yang
论文作者
论文提交者
新闻
致谢

部分代码借鉴自 OSWorldPopupAttack。衷心感谢他们的出色工作。