⏶4
SAEdit:通过稀疏自编码器对连续图像编辑进行令牌级别控制
发表
由
Daniel Garibi 提交
作者: Ronen Kamenetsky, Sara Dorfman,
Daniel Garibi, Roni Paiss,
Or Patashnik, Daniel Cohen-Or

摘要
AI 生成总结
一种用于解耦和连续文本到图像编辑的方法,通过使用稀疏自编码器对文本嵌入进行标记级别操作来平滑控制图像属性。大规模文本到图像扩散模型已成为现代图像编辑的支柱,但仅凭文本提示并不能提供充分的编辑控制。尤其需要两种属性:解耦性,即改变一个属性不会意外地改变其他属性;以及连续控制性,即编辑的强度可以平滑地调整。我们通过对文本嵌入进行 token 级别操作,引入了一种实现解耦和连续编辑的方法。通过沿着精心选择的方向操纵嵌入来应用编辑,这些方向控制目标属性的强度。为了识别这些方向,我们使用稀疏自编码器 (SAE),其稀疏潜在空间暴露了语义隔离的维度。我们的方法直接作用于文本嵌入,而不修改扩散过程,因此是模型无关的,并且可以广泛应用于各种图像合成骨干。实验表明,它能够实现跨越不同属性和领域的直观高效的操作,并具有连续控制性。
🌐 网站: https://ronen94.github.io/SAEdit/
📜 ArXiv: https://arxiv.org/abs/2510.05081