EVOREFUSE:用于评估和缓解大型语言模型对伪恶意指令过度拒绝的演化式提示优化

发表
Zhuang LiZhuang Li 提交
作者: Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li

摘要

大型语言模型 (LLM) 经常拒绝回应伪恶意指令:这些语义上无害的输入查询,由于过于保守的安全对齐,触发了不必要的LLM拒绝,严重损害了用户体验。收集此类指令对于评估和缓解过度拒绝至关重要,但现有的指令策展方法,如手动创建或指令重写,要么缺乏可扩展性,要么无法生成足够多样化和有效的拒绝诱导型提示。为了解决这些局限性,我们引入了EVOREFUSE,这是一种提示优化方法,能够生成多样化的伪恶意指令,并在LLM之间一致地引发自信的拒绝。EVOREFUSE采用进化算法,通过变异策略和重组,以比现有方法更多样化的方向探索指令空间,并迭代地演化种子指令,以最大化LLM拒绝概率的证据下界。利用EVOREFUSE,我们创建了两个新颖的数据集:EVOREFUSE-TEST,一个包含582条伪恶意指令的基准测试,在9个LLM上的平均拒绝触发率比次优基准高出140.41%,词汇多样性提高34.86%,LLM响应置信度分数提高40.03%;以及EVOREFUSE-ALIGN,它提供了3,000条伪恶意指令及其响应,用于监督式和基于偏好的对齐训练。在EVOREFUSE-ALIGN上进行监督式微调的LLAMA3.1-8B-INSTRUCT比在次优对齐数据集上训练的模型减少了高达14.31%的过度拒绝,且不损害安全性。我们对EVOREFUSE-TEST的分析表明,模型通过过度关注敏感关键词而忽略更广泛的上下文来触发过度拒绝。
查看 arXiv 页面查看 PDF

评论

Zhuang LiZhuang Li
论文提交者

大型语言模型(LLM)经常拒绝回应伪恶意指令:由于保守的安全对齐,语义上无害的输入查询会触发不必要的LLM拒绝,严重损害用户体验。收集此类指令对于评估和减轻过度拒绝至关重要,但现有的指令整理方法,如手动创建或指令重写,要么缺乏可扩展性,要么未能产生足够多样化和有效的拒绝触发提示。为了解决这些局限性,我们引入了EVOREFUSE,这是一种提示优化方法,能够生成多样化的伪恶意指令,在LLM中持续引发明确的拒绝。EVOREFUSE采用一种进化算法,通过突变策略和重组,以比现有方法更多样化的方向探索指令空间,并迭代演化种子指令,以最大化LLM拒绝概率的证据下界。利用EVOREFUSE,我们创建了两个新颖的数据集:EVOREFUSE-TEST,一个包含582条伪恶意指令的基准,在9个LLM上的平均拒绝触发率比次优基准高140.41%,词汇多样性高34.86%,LLM响应置信度分数提高40.03%;以及EVOREFUSE-ALIGN,它提供了3,000条带响应的伪恶意指令,用于监督式和基于偏好的对齐训练。在EVOREFUSE-ALIGN上进行监督式微调的LLAMA3.1-8B-INSTRUCT,与在次优对齐数据集上训练的模型相比,过度拒绝减少了高达14.31%,同时不影响安全性。我们对EVOREFUSE-TEST的分析表明,模型通过过度关注敏感关键词而忽略更广泛的上下文来触发过度拒绝。