⏶6
SteeringControl:LLM对齐转向的整体评估
发表
由
Nicholas Crispino 提交
作者: Vincent Siu,
Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
摘要
AI 生成总结
SteeringControl 评估了表示引导方法在偏见、有害生成和幻觉方面的表现,揭示了其对谄媚和常识道德等次要行为的权衡和纠缠效应。我们引入了 SteeringControl,一个用于评估表示转向方法在核心对齐目标(偏见、有害生成和幻觉)以及它们对次要行为(如谄媚和常识道德)的影响的基准测试。尽管先前的对齐工作经常强调真实性或推理能力来展示表示转向的副作用,但我们发现存在许多尚未系统理解的权衡。我们收集了一个与安全相关的首要和次要行为数据集,以评估围绕五种流行转向方法的转向有效性和行为纠缠。为了实现这一点,我们设计了一个基于独特组件的模块化转向框架,这些组件构成了许多现有方法的构建块。我们在 Qwen-2.5-7B 和 Llama-3.1-8B 上的结果发现,强大的转向性能取决于转向方法、模型和目标行为的具体组合,而糟糕的组合也可能导致严重的双向纠缠。我们在 https://github.com/wang-research-lab/SteeringControl.git 上发布了我们的代码。
我们提出了 SteeringControl,一个用于评估表示导向方法在核心对齐目标(偏见、有害生成和幻觉)以及它们对次要行为(如谄媚和常识道德)影响的基准。虽然之前的对齐工作通常强调真实性或推理能力来展示表示导向的副作用,但我们发现许多未被系统理解的未探索权衡。我们收集了一个与安全相关的初级和次级行为数据集,以评估导向有效性和行为纠缠,重点是五种流行的导向方法。为了实现这一点,我们构建了一个模块化导向框架,该框架基于独特的组件,这些组件是许多现有方法的构建块。我们在 Qwen-2.5-7B 和 Llama-3.1-8B 上的结果发现,强大的导向性能取决于导向方法、模型和目标行为的具体组合,并且由于这些三者的糟糕组合,可能导致严重的观念纠缠。