超越 Prompt Engineering:通过引导目标原子实现 LLMs 中鲁棒的行为控制

发表
Ningyu ZhangNingyu Zhang 提交
作者: Mengru Wang, Xu ZiwenZiwen Xu, Shengyu Mao, Shumin DengShumin Deng, Zhaopeng TuZhaopeng Tu, Huajun ChenHuajun Chen, Ningyu ZhangNingyu Zhang

摘要

对语言模型生成的精确控制对于确保安全性和可靠性至关重要。尽管通常使用提示工程和引导来干预模型行为,但模型参数的巨大数量往往导致内部表示高度交织。这种相互依赖性会限制控制的精确性,有时会导致意外的副作用。最近的研究探索了使用稀疏自编码器(SAE)在高维空间中解缠知识以进行引导。然而,由于定位原子知识组件的非平凡问题,这些应用仅限于玩具任务。在本文中,我们提出了 Steering Target Atoms(STA),一种新颖的方法,它分离和操纵解缠的知识组件以增强安全性。全面的实验证明了我们方法的有效性。进一步的分析表明,引导显示出卓越的鲁棒性和灵活性,特别是在对抗性场景中。我们还将引导策略应用于大型推理模型,证实了其在精确推理控制方面的有效性。
查看 arXiv 页面查看 PDF

评论

Ningyu ZhangNingyu Zhang
论文作者
论文提交者

我们提出了引导目标原子(Steering Target Atoms, STA),这是一种新颖的方法,它隔离和操纵解耦的知识成分以增强安全性。

全面的实验证明了我们方法的有效性。进一步分析表明,引导表现出卓越的鲁棒性和灵活性,特别是在对抗场景中。

我们还将引导策略应用于大型推理模型,确认其在精确推理控制方面的有效性。