⏶11
小心第三只眼!为 MLLM 驱动的智能手机代理评估隐私意识
发表
由
Jungang Li 提交
作者: Zhixin Lin,
Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
摘要
智能手机为用户带来了极大的便利,但也使得设备能够广泛记录各种个人信息。目前,基于多模态大语言模型(MLLMs)的智能手机代理在自动化各种任务方面取得了显著的性能。然而,由于成本原因,这些代理在运行过程中被授予了对用户敏感个人信息的实质性访问权限。为了深入了解这些代理的隐私意识,我们提出了迄今为止第一个涵盖 7,138 个场景的大规模基准测试。此外,对于场景中的隐私上下文,我们标注了其类型(例如,账户凭据)、敏感级别和位置。然后,我们仔细测试了七个主流的智能手机代理。我们的结果表明,几乎所有被测试的代理都表现出不令人满意的隐私意识(RA),即使有明确的提示,性能也低于 60%。总的来说,闭源代理比开源代理表现出更好的隐私能力,Gemini 2.0-flash 表现最佳,RA 达到 67%。我们还发现,代理的隐私检测能力与场景敏感级别高度相关,即敏感级别越高的场景通常越容易识别。我们希望这些发现能启发研究界重新思考智能手机代理在效用-隐私之间不平衡的权衡。
评论
论文作者
论文提交者
此评论已隐藏。