T-LoRA:单图扩散模型定制,避免过拟合

发表
Aibek AlanovAibek Alanov 提交
作者: Vera SobolevaVera Soboleva, Aibek AlanovAibek Alanov, Andrey KuznetsovAndrey Kuznetsov, Konstantin SobolevKonstantin Sobolev

摘要

虽然扩散模型微调为定制预训练模型以生成特定对象提供了一种强大的方法,但当训练样本有限时,它经常会遇到过拟合问题,从而损害泛化能力和输出多样性。本文旨在解决使用单个概念图像来适应扩散模型这一具有挑战性但最具影响力且具有最大实际应用潜力的任务。我们引入了 T-LoRA,一个专门为扩散模型个性化设计的时步依赖型低秩适应框架。在我们的工作中,我们表明较高的扩散时步比低的时步更容易过拟合,这需要一种时步敏感的微调策略。T-LoRA 包含了两个关键创新:(1) 一种动态微调策略,根据扩散时步调整秩约束更新;(2) 一种权重参数化技术,通过正交初始化确保适配器组件之间的独立性。大量实验表明,T-LoRA 及其各个组件优于标准 LoRA 和其他扩散模型个性化技术。它们在概念保真度和文本对齐之间取得了卓越的平衡,突显了 T-LoRA 在数据受限和资源受限场景中的潜力。代码可在 https://github.com/ControlGenAI/T-LoRA 获取。
查看 arXiv 页面查看 PDF

评论

Aibek AlanovAibek Alanov
论文作者
论文提交者

T-LoRA 是一种时间步长依赖的低秩适应框架,用于扩散模型个性化,通过根据扩散时间步长动态调整微调并对独立的适配器组件使用正交初始化,从而缓解单图像定制中的过拟合问题,在概念保真度和文本对齐方面优于标准方法。代码可在此 https URL获取。