小心第三只眼!为 MLLM 驱动的智能手机代理评估隐私意识

发表
Jungang LiJungang Li 提交
作者: Zhixin Lin, Jungang LiJungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu

摘要

智能手机为用户带来了极大的便利,但也使得设备能够广泛记录各种个人信息。目前,基于多模态大语言模型(MLLMs)的智能手机代理在自动化各种任务方面取得了显著的性能。然而,由于成本原因,这些代理在运行过程中被授予了对用户敏感个人信息的实质性访问权限。为了深入了解这些代理的隐私意识,我们提出了迄今为止第一个涵盖 7,138 个场景的大规模基准测试。此外,对于场景中的隐私上下文,我们标注了其类型(例如,账户凭据)、敏感级别和位置。然后,我们仔细测试了七个主流的智能手机代理。我们的结果表明,几乎所有被测试的代理都表现出不令人满意的隐私意识(RA),即使有明确的提示,性能也低于 60%。总的来说,闭源代理比开源代理表现出更好的隐私能力,Gemini 2.0-flash 表现最佳,RA 达到 67%。我们还发现,代理的隐私检测能力与场景敏感级别高度相关,即敏感级别越高的场景通常越容易识别。我们希望这些发现能启发研究界重新思考智能手机代理在效用-隐私之间不平衡的权衡。
查看 arXiv 页面查看 PDF

评论

Jungang LiJungang Li
论文作者
论文提交者
此评论已隐藏。
Jungang LiJungang Li
论文作者
论文提交者

SAPA-Bench

Phillip SsempeebwaPhillip Ssempeebwa

非常有趣的基准测试,特别是发现即使有明确的提示,大多数代理在隐私意识方面仍然低于60%。您认为这种弱点更多地源于多模态推理本身的局限性,还是缺乏明确的隐私导向的训练数据?另外,未来的基准测试如何能更好地捕捉现实世界智能手机使用中任务效用与隐私敏感性之间的权衡?

Zhixin LinZhixin Lin

感谢您提出这个有趣的问题。我认为这两个因素都起着重要作用。一方面,多模态推理本身存在固有的局限性:即使有明确的隐私提示,现有的 MLLM 代理在传感器感知、多模态集成和上下文理解方面仍然存在困难——尤其是在识别隐私敏感内容方面。另一方面,面向隐私的训练数据稀缺,进一步削弱了性能;没有突出敏感线索的数据集,模型很难检测细微的隐私风险或培养安全的行为模式。

展望未来,我认为未来的基准测试应明确纳入任务效用与隐私的权衡场景。例如,基准测试可以要求代理在执行任务之前,首先识别并警示潜在的隐私风险,迫使它们负责任地平衡功能性与隐私性考量。

Phillip SsempeebwaPhillip Ssempeebwa

感谢 Zhixin-L 的清晰回复。我非常喜欢这个想法,通过基准测试让代理在行动前标记风险,这更符合用户实际的期望行为。