SAFEFLOW:面向可信和事务性自主智能体系统的原则性协议

发表
Shuo XingShuo Xing 提交
作者: Peiran Li, XINKAI ZOUXinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo XingShuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu

摘要

大型语言模型(LLM)和视觉语言模型(VLM)的最新进展,使得能够进行复杂推理和多模态工具使用的强大自主代理成为可能。尽管它们的能力不断增长,但当前的代理框架仍然脆弱,缺乏用于安全信息流、可靠性和多代理协作的原则性机制。在这项工作中,我们引入了SAFEFLOW,这是一个用于构建可信赖的LLM/VLM代理的新协议级框架。SAFEFLOW强制执行细粒度信息流控制(IFC),精确跟踪代理、工具、用户和环境之间交换的所有数据的来源、完整性和机密性。通过限制LLM推理以遵守这些安全标签,SAFEFLOW防止不可信或对抗性输入污染高完整性决策。为了确保并发多代理设置中的鲁棒性,SAFEFLOW引入了事务性执行、冲突解决和共享状态上的安全调度,从而在代理之间保持全局一致性。我们进一步引入了包括预写日志、回滚和安全缓存等机制,以进一步增强对抗运行时错误和策略违规的弹性。为了验证性能,我们构建了SAFEFLOWBENCH,这是一个全面的基准测试套件,旨在评估代理在对抗性、噪声和并发操作条件下的可靠性。大量实验表明,使用SAFEFLOW构建的代理即使在恶意环境中也能保持令人印象深刻的任务性能和安全保证,显著优于最先进水平。总而言之,SAFEFLOW和SAFEFLOWBENCH为原则性、鲁棒和安全的代理生态系统奠定了基础,推动了可靠自主性的前沿发展。
查看 arXiv 页面查看 PDF

评论

Shuo XingShuo Xing
论文作者
论文提交者

数据集:https://huggingface.co/datasets/jayzou3773/SafeFlowBench