⏶1
TRACEALIGN——追溯漂移:将对齐失败归因于LLM中的训练时信念来源
发表
由
Aman Chadha 提交

作者: Amitava Das, Vinija Jain,
Aman Chadha

摘要
经过微调以符合人类价值观的大语言模型(LLM)常常表现出对齐漂移,当遇到对抗性提示、解码扰动或经过改写的越狱攻击时,会产生不安全或违反策略的补全。尽管先前的工作已经从行为上描述了对齐失败的特征,但对于导致这些失败的训练时信念来源却知之甚少。我们引入了 TraceAlign,一个统一的框架,用于将不安全的补全追溯到其在模型训练语料库中的根本原因。我们方法的核心是信念冲突指数(Belief Conflict Index, BCI),它基于使用后缀数组匹配检索到的训练文档,量化生成片段与对齐策略之间的语义不一致性。我们提出了三种互补的干预措施:(i) TraceShield,一个在推理时使用的安全过滤器,拒绝包含高 BCI 片段的补全;(ii) 对比信念去冲突损失(Contrastive Belief Deconfliction Loss),一种在 DPO 过程中惩罚高 BCI 续写的对比微调目标;以及 (iii) Prov-Decode,一种感知溯源的解码策略,否决那些预计会产生高 BCI 片段的束搜索扩展。这些防御措施共同作用,在我们的自建对齐漂移基准(Alignment Drift Benchmark, ADB)上将对齐漂移减少了高达 85%,同时保持了在标准任务上的效用(delta 小于 0.2)并提高了拒绝质量。我们进一步通过后缀数组的片段统计数据,推导出了漂移可能性的理论上界,将记忆频率和长度与对抗性再激活风险联系起来。因此,TraceAlign 提供了首个可扩展、可追溯且有据可查的工具包,用于从源头上理解和缓解对齐失败。为鼓励进一步探索和开发,我们在以下地址开源了我们的实现:https://anonymous.4open.science/r/tracealign-2DA7
🧠 漂移检查与遗忘缩放定律:
定义了一个新的基准 DRIFTCHECK,用于评估对齐漂移,并验证了一个修改后的缩放定律,该定律描述并减少了对齐敏感子空间中的灾难性遗忘,显示在不降低任务性能的情况下,对齐保留提高了 50%。