⏶3
对齐质量指数 (AQI):超越拒绝:AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法
发表
由
Aman Chadha 提交

作者: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja,
Aman Chadha, Amitava Das

摘要
对齐不再是一种奢侈,而是一种必需。随着大语言模型(LLMs)进入教育、医疗、治理和法律等高风险领域,它们的行为必须可靠地反映人类对齐的价值观和安全约束。然而,当前的评估严重依赖拒绝率、G-Eval分数和毒性分类器等行为代理指标,所有这些都存在关键盲点。对齐的模型常常容易受到越狱、生成随机性和对齐伪装的影响。
为解决这个问题,我们引入了对齐质量指数(AQI)。这种新颖的几何和提示不变度量通过分析潜在空间中安全和不安全激活的分离来经验性地评估 LLM 对齐性。通过结合戴维斯-布尔丁指数 (DBS)、邓恩指数 (DI)、谢本尼指数 (XBI) 和卡林斯基-哈拉巴斯指数 (CHI) 等不同公式下的度量,AQI 能够捕获聚类质量,从而检测隐藏的未对齐和越狱风险,即使输出看起来符合要求。AQI 还可作为对齐伪装的早期预警信号,为行为无关的安全审计提供了一个鲁棒的、解码不变的工具。
此外,我们提出了 LITMUS 数据集,以促进在这些挑战性条件下的鲁棒评估。在 LITMUS 上对在 DPO、GRPO 和 RLHF 条件下训练的不同模型进行的实证测试表明,AQI 与外部评判员具有相关性,并且能够揭示拒绝指标未能发现的漏洞。我们公开了我们的实现,以促进该领域的未来研究。
该论文介绍了对齐质量指数(AQI),这是一个解码不变的度量指标,它利用潜在几何表示和聚类指数来诊断大型语言模型(LLM)中隐藏的未对齐问题,即使在行为符合要求的情况下。
固有潜在几何度量:AQI 通过评估安全和不安全提示在模型潜在空间中形成不同聚类的程度来衡量对齐,使用谢贝尼(Xie-Beni)和卡林斯基-哈拉巴斯(Calinski-Harabasz)指数的组合,使其对解码策略不变且能抵抗对齐伪装。
分层池化表示学习:它使用稀疏的、经过学习的池化机制,在隐藏的Transformer层上捕获与对齐相关的抽象,而无需修改基础模型,从而实现强大的内部安全诊断。
行为度量的经验失败:AQI 揭示了传统度量(例如 G-Eval、拒绝率)在越狱、安全无关的微调和随机解码等场景中遗漏的未对齐问题——展示了其作为早期预警对齐审计工具的强大能力。