SafeScientist:迈向由LLM智能体实现的风险感知科学发现

发表
KunlunZhuKunlunZhu 提交
作者: Kunlun_ZhuKunlun Zhu, Jiaxun ZhangJiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia LiuZijia Liu, 韩沛煊Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You

摘要

大型语言模型(LLM)智能体的最新进展显著加速了科学发现的自动化,但同时也引发了关键的伦理和安全担忧。为了系统地解决这些挑战,我们引入了SafeScientist,这是一个创新的AI科学家框架,明确旨在增强AI驱动科学探索中的安全性和伦理责任。SafeScientist主动拒绝伦理上不适当或高风险的任务,并在整个研究过程中严格强调安全性。为了实现全面的安全监督,我们集成了多种防御机制,包括提示监控、智能体协作监控、工具使用监控以及伦理审查组件。作为SafeScientist的补充,我们提出了SciSafetyBench,这是一个专门设计用于评估科学背景下AI安全的新基准,包含跨越6个领域的240个高风险科学任务,以及30个专门设计的科学工具和120个工具相关风险任务。广泛实验表明,相较于传统AI科学家框架,SafeScientist显著提高了35%的安全性能,同时不影响科学产出质量。此外,我们针对多样化的对抗性攻击方法,严格验证了我们安全流程的鲁棒性,进一步证实了我们集成方法的有效性。代码和数据将在 https://github.com/ulab-uiuc/SafeScientist 提供。<span style="color:red;&quot;&gt;警告:本文包含可能具有冒犯性或有害的示例数据。</span>
查看 arXiv 页面查看 PDF

评论

KunlunZhuKunlunZhu
论文提交者

首个专注于安全且同时实现高性能的AI科学家。