⏶55
大型推理模型从错误思考中学习更好的对齐
发表
由
Anthony Peng 提交
作者:
ShengYun Peng,
Eric Smith, Ivan Evtimov, Song Jiang, Pin-Yu Chen, Hongyuan Zhan, Haozhu Wang, Duen Horng Chau,
Mahesh Pasupuleti,
Jianfeng Chi
摘要
AI 生成总结
RECAP,一种强化学习方法,通过教会大型推理模型覆盖错误的推理并保持安全而不增加额外训练成本,从而提高了其安全性和鲁棒性。大型推理模型 (LRM) 在生成结构化的思维链 (CoT) 后再产生最终答案,以此来“思考”。然而,它们仍然缺乏批判性地推理安全对齐的能力,并且在思维过程中注入有缺陷的前提时很容易产生偏见。我们提出 RECAP(通过反向对齐预填充实现稳健的安全对齐),一种基于原则的、用于后训练的强化学习 (RL) 方法,该方法明确地教会模型覆盖有缺陷的推理轨迹,并重新导向到安全有益的响应。RECAP 在合成生成的反向对齐 CoT 预填充和标准提示的混合上进行训练,除了人类反馈强化学习 (RLHF) 的标准之外,不需要额外的训练成本或修改,并且能显著提高安全性、越狱鲁棒性,减少过度拒绝,并保留核心推理能力——同时保持推理 token 预算。广泛的分析表明,经过 RECAP 训练的模型会更频繁地进行自我反思,并在自适应攻击下保持稳健,即使在反复尝试覆盖其推理后也能保持安全性。

我们很乐意与大家分享我们最近的合作成果——这是由Meta Superintelligence Labs、IBM Research和Georgia Tech共同完成的。
我们发现,有缺陷的思考方式实际上可以帮助推理模型更好地学习! 我们的方法,RECAP,是一种RL(强化学习)的后训练方法,它教会模型覆盖不安全的推理,重新路由到安全且有用的答案,并保持鲁棒性——所有这些都无需额外的训练成本。更多信息可以在 https://x.com/RealAnthonyPeng/status/1973756324547575873 找到。
如果您觉得我们的工作很有趣,我们非常希望您能帮助我们将其分享给更广泛的受众。