⏶4
纠正你:自动引导去噪轨迹以避开不需要的概念
04月17日发表
04月18日由
Shilin Lu 提交
作者: Leyang Li,
Shilin Lu, Yan Ren, Adams Wai-Kin Kong
摘要
确保文本到图像模型的道德部署需要有效的技术来防止生成有害或不适当的内容。虽然概念擦除方法提供了一种有希望的解决方案,但现有的基于微调的方法存在明显的局限性。无锚点方法有破坏采样轨迹的风险,导致视觉伪影,而基于锚点的方法依赖于锚点概念的启发式选择。为了克服这些缺点,我们引入了一个微调框架,称为 ANT,它可以自动引导去噪轨迹以避免不需要的概念。ANT 基于一个关键的洞察:在中后期去噪阶段反转无分类器指导的条件方向,可以实现精确的内容修改,而不会牺牲早期阶段的结构完整性。这启发了一个轨迹感知目标,该目标保留了早期阶段评分函数场的完整性,该函数场引导样本朝向自然图像流形,而无需依赖启发式锚点概念选择。对于单概念擦除,我们提出了一种增强增强的权重显著性图,以精确识别对不需要的概念贡献最大的关键参数,从而实现更彻底和高效的擦除。对于多概念擦除,我们的目标函数提供了一种通用的即插即用解决方案,可显著提高性能。广泛的实验表明,ANT 在单概念和多概念擦除方面都取得了最先进的结果,在不损害生成保真度的情况下提供高质量、安全的输出。代码可在 https://github.com/lileyang1210/ANT 获取
使你走上正轨:自动引导去噪轨迹以避开不需要的概念